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《科学 专著 丛书 ) 序 


如 果 说 科学 研究 论文 是 创造 性 科学 工作 的 发 表 性 记录 , 那 末 科学 技 
本 学 本 专著 则 是 创 筷 性 科学 工 伦 的 总 结 性 记录 。 前 者 注重 的 是 优先 权 * 后 
者 注重 的 是 系统 化 。 


在 大 量 科 学 研究 的 基础 上 ;对 一 个 专题 或 一 个 领域 的 研究 成 果 , 作 系 
统 的 整理 总 结 ,着 书 立 说 , 乃 是 科学 研究 工作 不 可 少 的 一 个 组 成 部 分 。 著 
蔬 立 说 ,既是 丰富 人 类 知识 宝库 的 需要 ， 也 是 探索 未 知 领 域 . 开 拓 人 类 知 
识 新 疆界 的 需要 。 特 别 是 在 科学 各 杂 类 的 那些 基本 问题 上 ,一 部 优秀 的 学 
术 专 著 常 常 成 为 本 学 科 或 相关 学 科 取 得 突破 性 进展 的 基石 。 所 以 ,科学 技 
术 学 术 专著 的 著述 和 出 版 是 一 项 十 分 重要 的 工作 。 


近 20 年 来 ,中 国 的 科学 事业 有 了 迅速 的 发 展 ,涌现 了 许多 优秀 和 的 科 
学 研究 成 果 , 为 出 版 学 术 专 闭 提 供 了 坚实 的 基础 。 什 此 20 世纪 90 年 代 ， 
在 出 版 学 术 专 着 方面 ,中 国 的 科学 界 和 出 版 界 都 在 抓紧 为 本 世纪 再 加 些 
积累 ,为 迎接 新 进 纪 多 作 些 开拓 。 我 高 兴 地 看 到， 作为 这 种 努力 的 一 个 部 
分 以 科学 3 素 志 的 出 版 者 一 一 上 海 科学 技术 出 版 社 推出 了 这 套 《 科学 专 
著 从 书 》。 


上 上 海 科学 技术 出 虑 社 是 科学 技术 界 熟 悉 和 信和 闲 的 一 家 出 版 社 , 历 来 
注重 科学 技术 学 术 专 荐 的 出 版 。& 科 学 3 杂志 的 编者 组 织 编辑 学 术 系 列 从 
书 , 也 不 是 第 一 次 。 在 本 世纪 三 四 十 年 代 , 就 曾 推出 过 各 二 丛书》， 基 中 
不 乏 佳 作 , 对 当时 的 学 术 研 究 起 了 很 好 的 作用 。 


《科学 8 在 中 国 是 一 份 历史 最 长 的 综合 性 科学 刊 禾 ,80 年 来 与 科学 按 
术 界 建立 了 广远 的 密切 联系 。 现 在 推出 的 这 套 & 科 夺 专著 丛书) 正 是 这 种 


联系 的 产物 。 我 相信 ,加 强 这 种 联系 ,著者 与 编者 、 出 版 者 ,科技 界 与 出 版 
界 共 同 努 力 , 糖 心 选 题 , 精 心 编 辑 * 精 心 出 版 ,一 定 能 使 这 套 专 著 丛 书 反 映 
出 中 国 科学 技术 研究 的 最 新 水 平 , 为 本 世纪 多 留 下 几 本 中 国学 者 的 优秀 
专著 :为 迈 向 新 世纪 多 铺 下 几 块 引路 的 基石 ! 


《科学 ?杂志 编 委 会 主编 } 
1394 年 8 月 


本 书 序 


1991 年 夏 初 ， 冯 士 闭 教 授 应 中 国 科学 技术 大 学 数学 系 之 聘 ， 为 读 系 
统计 专门 化 学 生 讲 授 x 抽 样 调查 > 课程 。 我 当时 适 因 事 去 合肥 ， 与 汉 教 授 
朝夕 相 见 ， 因 有 学 拜 读 了 他 前 讲稿 ， 即 此 书 的 原 旺 ， 氢 阅 之 下 ， 深 感 此 稿 
取材 精 当 , 论述 严 讶 诈 可 读 性 强 , 尤其 难得 的 是 ， 其 中 包含 了 不 少 实例 分 
本, 实 是 一 部 极 有 出 版 价值 的 苦 作 后 以 绕 意 与 汉 教 授 高 议 , 知 他 也 有 这 
个 打算 , 很 是 高 兴 . 

光 半 似 简 , 很 快 又 过 去 了 三 个 寒暑 ， 在 这 期 间 ， 曾 多 次 向 他 打听 此 局 
写作 的 进展 情况 ， 诊 告 以 己 书 系 我 国 第 一 部 抽样 油 查 方面 前 大 型 著作 ， 
故 在 取材 、 编 排 和 论述 方面 务求 精 当 .。 因此 颇 费 周折 ， 加 以 科研 事务 繁 
重 , 故 对 进度 有 所 影响 去 云 、 所 幸 经 过 几 年 的 努力 , 这 件 精 雕 纽 刻 的 工作 
终于 得 以 呈献 于 读者 之 前 、 作 为 本 书 的 第 一 个 读者 , 在 感到 欣 感 之 余 , 也 
深 为 作者 这 种 惑 忽 刻 昔 、 侧 而 不 合 和 精益 求 精 的 精神 所 感动 , 

关于 本 书 的 内 容 与 特点 ， 作 者 在 前 言 中 己 有 充分 的 介绍 。 此 外 想 特 
别提 请 读者 注意 的 是 书 中 的 “案例 务 析 ” 部 分 ， 在 其 中 所 汇集 的 一 些 大 型 
的 臣 样 调查 应 用 实例 , 许多 是 由 浊 教 授 主 持 或 参与 的 , 有 的 并 曾 在 全 国 性 
的 媒体 上 报导 过 , 汉 教 授 详 细 介 绍 了 这 些 项 目的 调查 目的 , 方法 . 指标 的 
选择 调查 的 组 织 实施 、 抽 样 方案 的 制定 、 数 据 处 理 方法 以 及 所 得 结果 的 
解释 和 应 用 等 的 全 过 程 。 在 某 种 意义 上 ， 这 部 分 可 宫 为 冯 数 授 从 事 抽样 
调查 研究 和 应 用 工作 十 余年 的 经 验 的 结晶 .现在 他 把 这 里 
以 与 读者 共 京 , 实在 是 弥 足 珍贵 .不列颠 百科 全 书 把 统计 学 定义 为 “收集 
和 分 析 数 据 的 艺术 ”. 这 “艺术 ”一 词 值得 玩味 ， 而 冯 教 授 所 提供 的 这 些 案 
例 分 析 ， 对 在 抽 祥 调查 的 领域 内 这 种 “艺术 ”如 何 展 现 ， 提 供 了 感性 的 范 
钢 . 其 启示 的 意义 , 实在 是 超出 这 些 例子 本 身 之 外 的 ， 

数理 统计 学 的 快速 发 展 ， 也 使 抽样 调查 这 门 相对 说 来 较为 经 典 的 分 
支 学 科 的 面 萄 有 有 了 不 少 更 新 ， 这 些 在 本 书 中 不 少 地 方 有 所 反映 .在 此 还 
特别 要 提 到 由 施 锡 狂 教授 主持 撰写 欧 9、 10 两 章 ， 施 教 授 是 我 国 知名 的 























中 年 统计 学 家 ， 其 在 Jaokknite 和 Boatstrap 方面 的 研究 在 国内 堪 称 独 
步 ， 由 他 来 承担 这 类 惩 目的 主笔 , 可 说 是 适 人 迁 选 . 

尝 术 著作 出 版 难 , 二 当前 困 掩 学 界 辣 人 的 一 件 起 事 , 而 本 书 这 样 一 部 
有 很 大 学 术 和 社会 意义 的 著作 , 在 上 海 科学 技术 出 版 社 的 大 力 支 持 下 , 得 
以 顺利 且 迅 速 屯 问 志 , 其 扶持 学 术 的 远大 限 光 功 不 可 强 , 作为 本 书 读者 及 
学 界 一 员 , 愿 借 此 机 会 表示 个 人 的 狗 赏 和 钦 概 . 








丈 希 到 1994 年 5 月 


于 
了 


抽样 调查 历来 征 应 用 统计 的 一 个 重要 分 支 , 在 各 个 领域 , 特别 是 社会 
经 济 领 域 中 有 极其 重要 的 应 用 ， 但 直到 十 多 年 前 , 在 我 国 应 用 面 还 很 窗 ， 
负 在 学 术 界 则 可 谤 逢 几乎 一 片 空白 ， 随 着 我 国 改革 开放 的 不 断 深 入 及 社 
会 主义 市 场 经 济 的 初步 形成 ， 抽样 调查 在 调查 方法 中 将 逐渐 占据 主导 地 
位 ， 随 着 它 愈 浅 念 广泛 的 度 用 ， 对 方法 及 理论 的 需求 也 愈加 迫切 ， 但 目 
前 国内 尚 无 一 本 理论 、 方 法 与 实践 这 三 个 方面 兼顾 的 抽样 调查 的 学 术 著 
作 、 本 书 是 为 填补 这 一 空缺 所 作 的 一 个 尝试 . 

由 于 工作 的 需要 , 十 余年 前 , 作者 开始 把 注意 力 转 向 的 样 调 查 这 个 领 
域 ， 除 进 行 理论 研究 , 参加 实际 项 日 外 ， 还 自 1985 起 先后 在 趾 国 科技 大 
学 ,华东 师范 大 学 、 上 海 财 经 大 学 、 上 海 交通 大 学 . 中 国 科 学 院 研 究 生 院 等 
单位 为 本 科 生 及 硕士 研究 生 开 设 了 «抽样 调查 * 课 程 ， 最 初 所 用 的 讲义 在 
框架 上 参考 了 Williiam G、 Cochran 的 Sgmpling Teohmigues. 在 本 书写 
作 过 程 中 , 参照 本 学 科 近 年 发 展 状况 及 实际 党 要 , 并 结合 自己 一 些 研 究 心 
得 , 对 本 书 的 章节 编排 及 叙述 论证 作 了 设计 , 特别 是 增加 了 许多 我 国 的 数 
字 实 例 ， 其 中 不 少 是 作者 亲自 参与 的 。 考虑 到 新 近 发 展 起 来 的 再 押 样 
(resampling) 等 方法 在 复杂 样本 方差 估计 等 方面 的 理论 和 实用 意义 ， 由 
在 这 个 领域 里 富有 研究 成 有 的 施 锡 狂 教 授 撰 写 了 第 9.10 两 章 , 这 两 章 使 
全 书 增色 不 少 . 

金 书 共 分 十 一 章 。 第 1 章 介 绍 抽样 调查 的 意义 与 作用 , 若干 基本 概 
念 及 其 应 用 领域 ， 从 第 2 剖 至 第 8 章 详尽 地 介绍 了 几 种 应 用 中 最 重要 的 
帮 习 方法 : 简单 随机 宙 样 ,分野 抽 祥 ,不 等 概率 挡 样 、 就 群 抽样 、 二 阶 及 多 
阶 抽 样 、 系 统 抽 样 ， 其 中 第 4 章 介绍 两 种 重要 的 非 线 性 合计 一 一 比 舍 计 
及 回归 估计 .上述 各 章 的 筷 点 是 介绍 各 种 抽样 方法 的 适用 场合 与 实施 方 
法 、 样 本 量 的 确定 及 总 体 目标 量 的 估计 及 其 方差 估计 ， 第 9 章 介绍 复杂 
样本 的 方差 估计 方法 ， 第 10 章 讨论 了 抽样 调查 的 误差 来 源 , 特别 是 非 抽 
样 误差 及 其 相关 问题 的 处理 方法 .。 最 后 一 章 是 案例 分 析 ， 介 绍 了 参 项 实 









































际 抽 样 调 查 项 目的 背景 、 只 的 、 


章 的 材料 是 经 过 精心 选择 的 ， 


设计 与 分 析 , 并 对 其 进行 分 析 评 价 ， 这 一 
为 的 是 尽 可 能 照顾 到 不 同 的 应 用 领域 和 押 


用 的 方法 ， 大 部 分 案例 采用 作者 及 其 园 可 们 多 年 来 蒜 抽 的 实际 项 日 ， 另 








天 








外 一 些 则 取 自 我 








时 尽 可 能 做 到 简 繁 相 闻 


F 展 的 其 他 有 影响 的 全 攻 
一 个 实际 抽样 调查 项 目 








性 儿 样 调查 方案 ， 希 望 通过 
的 目的 、 设 计 与 分 析 的 全 过 程 


国 





让 保 是 从 事 抽 桩 调查 的 理论 与 方法 研究 的 科 证 了 作 


者 、 孝 所 以 及 实 际 工作 者 . 为 尽 可 能 
闻 , 难 易 结合 . 





是 到 多 方面 读者 的 涡 要 , 本 书写 作 
对 于 那些 主要 从 事实 际 工作 的 读 省 








» 


在 初次 阅读 时 可 时 去 若干 定理 的 证 明 , 本 书 也 适合 作为 研究 生 的 教材 、 数 


瑶 统 计 专 业 本 科 








， 陈 希 捕 救 授 在 二 忙 
了 全 书 并 提出 不 少 中 肯 





本 书 成 稿 过 程 中 得 到 了 作者 的 老师 和 许多 同行 
长 中 和 踩 希 稀 、 成 平 、 项 可 风 、 张 尘 庭 、 汗 个 


古 宝 贵 的 意见 、 对 此 作者 识 表 元 
者 还 间 感 谢 我 的 学 生 亏 国 华 , 他 十 分 征 网 地 阅读 了 


学 习 抽 样 调 查 课 程 的 主要 参考 书 . 


;的 多 方 鼓励 人 












站 次 山 洋 、 如 


中 为 本 书 专门 作 序 , 注 仁 官 








车 干 恢 正 ， 最 后 作者 偿 妆 特 期 


辑 出 版 这 本 


版 社 为 及 





感 请 上海 科学 技术 出 此 


书 所 作物 和 努力， 由 于 作者 水 平 所 有限 , 书 中 一 定 存 在 不 是 之 处 , 望 请 有 关 专 


家 及 广 六 读者 惠子 批评 括 正 。 


冯 士 刘 
1994 年 生 月 于 中 国 科学 院 
系统 科学 研究 所 





内 窗 提 要 


本 书 所 反映 的 研究 工作 系 周 家 自然 科学 基金 重点 资 著 ' 
项 目 之 一 。 

爹 书 共 分 11 章 。 第 1 章 介绍 抽样 调查 的 意义 和 作用 、 
党 干 基本 概念 及 其 应 用 范围 。 从 第 2 竞 至 第 8 章 详尽 地 介 
绍 了 几 种 应 用 中 最 常用 的 抽样 方法 : 简单 大 机 抽样 、 系 统 抽 
祥 、 分 层 抽 样 ,不 等 枝 率 拍 样 , 整 群 抽样 、 二 阶 及 多 阶 抽样， 
其 中 第 4 章 介绍 了 两 种 重要 的 非 线性 估计 一 一 比 估计 及 阿 
归 估 计 。 .上 述 各 章 的 重点 在 于 阅 述 这 些 抽样 方法 的 适用 场 
合 、 实 施 方法 、 样 本 量 的 确定 与 总 体 目标 量 的 估计 及 方差 佑 
计 。 第 9 章 介绍 几 种 复杂 样本 的 方差 估计 方法 ;第 20 章 讨 
论 了 抽样 调查 的 误差 来 源 ; 特别 是 非 抽 样 误差 的 处 理 方法 。 
最 后 一 章 案 例 分 析 介绍 煞 项 实际 抽样 调查 项 目的 背景 、 巨 
的 、 设 计 与 分 析 , 并 对 其 进行 分 析 评 价 。 

本 书 主要 读者 对 象 是 从 事 抽样 调查 理论 与 方法 研究 的 
科研 人 入 员 及 实际 工作 者 。 也 可 供 数理 统计 及 经 济 统计 专业 
学 生 或 相关 专业 研究 生 作 教材 或 主要 参考 书 。 
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§1.1 质 样 调查 的 意义 和 作用 


要 了 艇 一 个 国家 或 地 区 的 人 口 、 环 境 、 资 源 、 社 会 经 济 、 政 治 现状 , 以 
至 人 们 的 意向 及 对 名 种 问题 所 持 的 态度 ,都 必须 进行 调查 。 根据 调查 结 
果 , 经 过 恰当 的 分 析 研 究 , 可 作为 有 关 领 导 或 决策 部 门 制定 政策 或 采取 必 
要 行动 的 依据 . 

调查 有 多 种 形式 , 其 中 最 基本 的 有 全 面 调 查 . 典 型 调查 和 抽 祥 调查 三 
类 ， 我 国 以 往 在 社会 经 济 领域 中 普遍 实行 统计 报表 制度 ， 由 统计 部 门 定 
期 将 各 种 统计 项 目 逐 级 汇总 上 报 , 其 中 大 多 数 项 目 阁 于 全 面 调查 的 范畴 ， 
有 时 , 有 关 部 门 就 一 个 特定 的 问题 组 织 大 规模 的 普查 ， 向 如 人 口 普 查 、 工 
业 普 查 、 科 技 普 查 等 都 是 全 面 调查 . 全 面 调查 可 以 使 人 们 对 调查 的 对 象 
有 全 面 的 了 解 ， 如 时 对 每 个 调查 对 象 的 调查 结果 (或 他 位 所 提供 的 资料 ) 
都 确实 无 误 , 且 在 实际 调查 过 程 中 ， 调 查 对 象 既 没有 超 汕 也 没有 重复 , 数 
据 在 各 级 汇总 中 也 末世 现任 何 差 错 ， 那 入 由 全 面 调查 所 得 的 最 后 结果 则 
是 精确 而 可 靠 的 ， 但 是 全 面 调查 也 有 其 本 身 的 局 根性 . 首先 , 它 需 要 耗费 
大 量 的 人 力 、 牺 力 和 财力 ; 其 次 ， 调 查 所 花费 的 时 间 也 园 长 .因此 对 于 那 
些 时 效 性 较 强 的 项 目 ， 通 过 全 面 调 查 所 获得 的 结果 有 可 能 已 是 过 时 的 信 
息 , 从 而 不 能 成 为 决策 所 需 的 适时 反馈 .。 另外 ， 当 调查 的 对 象 是 无 限 (或 
数量 被 大 ) 时 或 调查 所 用 的 测试 方法 带 有 破坏 性 时 , 就 根本 不 能 采用 全 面 
调查 ， 即 使 在 理论 上 可 行 , 但 在 实际 上 由 于 受到 人 力 、 费 用 与 时 间 上 的 限 
制 , 而 不 能 或 不 需要 进行 全 面 调查 . 

与 全面 调查 不 同 的 是 非 全 面 调查 .有 许多 非 全 面 调查 的 方法 。 量 重 
要 的 是 典型 调查 与 抽 祥 调查 两 种 ， 为 某 种 目的 ， 由 调查 者 选取 他 认为 有 
“典型 "意义 的 对 象 进 行 的 调查 称 为 典型 调查 .例如 毛泽东 在 第 一 次 国内 
革命 战争 期 疝 对 湖南 农民 运动 的 考察 与 帆 孝 通 在 30 年 代 初期 对 苏 南小 
城镇 进行 的 社会 调查 都 堪 称 典型 调查 的 典范 ， 典 进 调查 针对 世 强 ， 对 党 
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握 事 物 发 展 的 规律 及 动向 ， 制定 提出 相关 政策 有 械 大 的 失 导 意义 ， 上 典型 
调查 的 主要 局 限 性 在 于 它 的 调查 结果 取决 于 调查 的 对 象 ， 即 “典型 "的 选 
取 以 及 调查 者 本 人 对 问题 的 主观 认识 ,对 于 那 种 出 于 有 意 或 无 意 的 , 从 并 
未 反映 总 体 情况 的 “上 典型 "所 得 的 调查 结果 就 容易 造成 认识 的 偏差 ， 从 而 
导致 决策 的 失误 ， 至 于 为 了 验证 自己 的 某 个 论点 而 有 意 地 选择 所 需 的 
“典型 ”或 事例 进行 的 调查 ， 则 更 无 科学 性 可 言 了 . 上 典型 调查 的 男 一 个 能 
点 是 由 于 这 类 调查 通常 规模 较 小 ， 故 一 般 只 有 定性 意义 而 得 不 到 有 关 总 
体 的 定量 结果 . 

另 一 种 重要 的 非 全 面 调查 方法 即 是 抽 桩 调查 ( sampling survey). 
抽样 调查 是 按照 一 定 的 程序 , 从 全 伍 调 查 对 象 (我 们 称 之 为 总 体 ， 参 见 下 
节 ) 中 抽取 一 部 分 ( 称 为 样本 ) 进 行 调 查 , 然后 根据 祥 本 数据 对 总 体 上 月 标量 
进行 估计 .抽样 调查 也 是 一 种 统计 调查 方法 , 它 有 花费 少 , 适时 性 强 两 个 
基本 特点 、 因 此 它 能 以 较 小 的 代价 及 时 地 获得 所 需要 的 信息 ， 这 是 全 面 
调查 所 不 能 比拟 前 ， 也 是 显而易见 的 优点 . 但 由 于 抽样 调查 只 对 调查 对 
得 中 的 一 部 分 ( 仪 月 二 所 抽 到 的 样本 ?进行 亩 查 , 皖 此 对 总 钵 进行 估计 , 必 
然 存在 误差 , 即 所 铀 扫 样 误差 (sampling error). 不 过 这 个 误差 是 可 以 
得 到 控制 的 , 只 要 抽 祥 足够 多 , 就 可 使 抽样 误差 任意 小 ， 而 且 对 多 种 抽样 
方法 , 可 用 具体 的 数量 表示 抽样 误差 ， 事实 上 , 一 个 经 科学 设计 和 严格 实 
芳 的 抽样 调查 , 有 可 能 获得 比 全 面 调查 更 为 可 靠 、 更 为 精确 的 结果 .一 项 
调查 的 质量 不 仅 取决 于 调查 的 规模 ,更 取决 于 所 得 数据 的 正确 程度 ， 一 
个 不 正确 的 数据 比 没 有 更 粮 ， 在 抽样 调查 情形 , 一 则 由 于 调查 涉及 面 较 
小 , 参加 调查 的 人 员 可 经 过 较为 严格 的 统一 培训 , 其 素质 和 经 验 才 可比 参 
加 同样 性 质 的 全 面 调查 (普查 ) 的 工作 人 员 要 高 .另外 , 在 抽样 调查 中 , 更 
有 可 能 采用 精确 和 可 靠 的 分 析 测 试 手段 ， 因 此 抽样 调查 获得 的 原始 数据 
一 般 比 全 面 调查 所 获得 的 相应 数据 更 为 精确 ， 另 一 方面 ,也 由 于 总 的 工 
作 量 相对 较 小 , 抽样 调查 的 全 过 程 可 以 通过 各 种 措施 (这 些 措施 比例 画 调 
查 时 采用 的 类 似 措施 容易 实行 得 多 ) 使 整个 调查 过 程 处 于 控制 状态 ， 最 
后 , 也 是 相当 重 要 的 一 点 是 : 在 社会 经 济 和 其 他 某 些 领域 的 一 些 调 查 ， 若 
采用 人 全面 调查 ， 被 调查 的 单位 或 个 人 容易 将 调查 与 对 单位 或 本 人 的 评价 
联系 起 来 , 或 认为 调查 结果 直接 与 本 单位 或 本 人 的 某 种 利益 有 关 , 从 而 会 
发 生 不 能 如 实 填报 或 回答 , 甚至 人 为 干预 等 情况 . 例如 我 国 历年 故地 面积 
数字 按 报 表 汇总 的 数字 就 比 实际 数字 偏 小 ， 公 安 机 关 掌 狂 前 一 个 地 区 的 
地 生 率 和 婴儿 死亡 率 都 可 能 比 实际 数字 偏 低 ， 家 产量 在 一 个 时 期 林 能 有 有 
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建 报 的 价 向 , 而 在 另外 一 个 时 期 , 又 可 能 有 旺 产 的 癸 向 等 等 ， 所 有 这 些 人 
为 的 偏差 大 大 影响 了 调查 结果 的 正确 性 . 而 抽样 调查 由 于 不 涉及 每 个 单 
位 或 每 个 人 , 一 般 地 说 , 没有 单位 之 间或 个 人 之 间 比 较 的 意义 , 从 而 能 在 
相当 程度 上 减轻 被 调查 单位 或 个 人 的 心理 压力 , 较为 愿意 提供 真实 数据 . 
有 从 以 上 几 个 方面 看 ， 抽 样 调查 完全 有 可 能 慌 到 比 全 面 滑 查 更 为 精确 利 可 
靠 , 再 加 上 它 的 经 济 与 快速 , 从 而 乐于 被 人 们 所 采用 。 它 的 应 用 也 就 钝 来 
分 广泛 了 . 

当然 , 抽 祥 调查 并 不 能 完全 取代 其 他 调查 方法 。 当 我 们 需要 碗 清 某 
些 社会 岗 象 的 机 制 或 发 展 趋势 时 , 仍 需 要 进行 典型 调查 . 而 全 面 调查 过 去 
是 ， 今 后 也 将 继续 是 我 国 统计 部 门 和 共 他 一 些 部 门 的 一 种 基本 的 测 查 于 
县 . 但 是 ,抽样 调查 作为 一 种 科学 的 调查 方法 ， 其 重要 性 必 将 日 益 旺 示 出 
来 . 它 不 仅 可 以 在 一 些 项 目 中 单独 使 用 , 呈 且 也 可 以 与 全 面 调查 或 典型 调 
起 来 ， 起 到 相互 罕 充 的 作出. 例如 在 人 凯 统 计 中 , 我 国 今后 将 每 10 
4 行 - :次 普查 , 而 在 其 他 年 扮 进行 人 局 灾 动情 况 的 抽样 调 查 , 以 此 来 个 
计 每 年 的 人 口 数 。 即使 在 车 查 内， 也 常 厨 时 采用 起 样 证 查 的 方法 对 普查 
结果 进行 核对 和 进行 修正 ， 反之 , 以 前 的 普查 资料 也 为 贡 祥 调查 提供 了 
丰富 谓 可 靠 的 背景 材料 , 从 而 能 使 抽样 调查 获得 更 好 的 效果 . 
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所 方法论 意 义 耐 育 ， 抽 样 调查 属于 应 用 统计 ， 为 了 便于 在 以 后 各 章 
讨论 具体 抽样 方法 , 在 这 一 节 中 我 们 解释 抽样 调查 中 的 一 些 基 本 慨 念 , 将 
指 样 调查 中 的 某 些 问题 用 一 般 的 统计 语言 进行 描述 ， 并 指出 它们 与 数理 
统计 其 他 分 支 中 和 应 问题 的 一 些 区 期 . 


1.2.1 总 体 与 样本 


总 体 与 样本 是 统计 中 最 基本 的 概念 ， 总体 (population ) 就 是 所 研究 
《调查 ) 对 象 的 企 体 . 例如 在 全 国 儿 童 情况 调查 中 ， 全 国 所 有 0~14 岁 的 
儿童 就 构成 油 查 的 普 体 、 调 查 的 目的 是 为 了 得 到 有 关 这 个 总 体 的 某 些 参 
数 ， 例 记 全 画 儿 童 总 数 , 每 个 年 龄 组 男女 用 童 的 平均 体重 , 学 龄 儿童 的 在 
校 率 等 等 的 估计 ， 因 此 油 查 时 就 必须 涉 攻 有 关 指 标 (eharaeteristie)。 总 
栖 是 由 个 条 (iterm, individual) 组 成 的 ， 作 抽样 调查 时 , 我 们 按 茶 各 方法 
从 总 体 中 只 抽取 其 中 一 部 分 个 体 进行 调查 ， 这 部 分 个 体 就 称 为 样本 
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{sampie). 在 儿童 调查 中 , 全 国 每 个 0~14 岁 的 儿童 就 是 一 个 个 体 , 而 根 
据 设 计 的 抽样 方案 提 到 的 需要 进行 调查 的 儿童 构成 样本 .， 根 据 被 抽 到 的 
这 些 儿 童 的 各 调查 指标 的 数据 ( 即 样本 数据 )， 即 可 对 总 体 参 数 或 调查 的 
总 体 目 标量 进行 推算 即 依 计 ,用 样本 推断 总 体 是 数理 统计 最 基本 的 特征 . 

在 理论 上 以 及 实际 处 理 时 ， 接 样 调查 中 的 总 体 通常 供 定 是 有 有限 的 . 
尽管 在 实际 问题 中 , 不 过 存在 总 条 很 大 其 至 无 限 的 情形 , 但 通过 划分 考 样 
单元 ( 详 见 1.2.3 段 ) 的 方法 ， 总 体 就 可 以 看 作 是 有 限 的 ， 而 且 在 一 般 情 
形 , 总 体 大 小 入 已 知 。 这 一 点 与 数理 统计 中 通常 讨论 的 无 限 总 体 是 有 区 
别 的 ， 郧 外, 抽样 调查 中 的 个 体 (或 站 祥 单元 ) 都 是 县 笨 的 ; 生 是 可 以 辨别 
的 , 因此 相应 的 总 体 也 大 具体 的 ， 这 叉 与 统计 中 许多 场合 不 同 , 例如 试验 
证 主 钻 的 总 体 就 只 是 一 个 抽象 的 总 体 . 在 讨论 抽样 调查 具体 方法 时 ,一 
般 很 少 对 总 栖 进 行 什 么 假定 , 特别 是 很 少 对 它 的 分 布 作 任 何 假定 , 这 也 是 
因为 它 过 于 县 体 的 缘故 . 

抽样 调查 所 处 理 的 样本 一 般 比 较 复 杂 .， 在 绝 大 多 数 情 形 ， 样 本 中 的 
观测 数据 不 是 独立 同 分 布 的 , 这 也 与 数理 统计 中 通常 讨论 的 情形 不 同 . 因 
此 大 人 将 抽 祥 调查 中 获得 的 数据 称 为 “不 干净 数据 *， 称 这 样 多 样本 为 复 
亲 样 本 (eomplex sample)。 


1.2.2 概率 抽样 
加 庙 杰 中 的 个 基本 问 二 是 样本 的 抽 阳 方法 ， 也 即 抽 样 方 法 . 抽 

















habinty sampling) 卫 多， 概率 抽样 也 称 随机 抽样 (random sampling)， 
但 当 使 用 后 一 个 术语 时 , 要 注意 它 与 男 一 个 术语 即 随机 扫 取 (to draw an 
item a random) 的 区 别 。 从 由 至 个 个 体 组 成 的 总 体 中 抽取 一 个 个 体 
时 , 若 总 体 中 的 每 一 个 性 被 抽 到 的 可 能 性 都 相等 , 则 称 这 种 搜 到 方法 为 随 
机 抽取. 因此 ， 随 机 抽取 是 措 等 概率 从 总 体 中 抽取 个 体 的 方法 ，。 而 概率 
抽样 的 含义 比 它 更 为 广泛 , 它 是 一 种 从 总 体 中 按 一 定 概率 获取 样本 (一 组 
个 体 ) 的 方法 .概率 抽样 具有 如 下 基本 特点 ， 

1) 能 够 确切 地 定义 (或 区 分 ) 不 同 的 样本 , 即 能 够 明确 表明 一 个 确定 
的 样本 包含 哪些 个 性 ; 

2 对 每 个 可 能 的 样本 , 都 赋 于 一 个 被 抽 到 的 概率 ; 

3》 通 过 基 种 随机 形式 从 总 体 中 近 取 一 个 祥 本 , 使 这 个 样本 被 抽 中 脑 

- 摄 率 等 于 所 赋 于 的 概率 ; 
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4) 从 样本 估计 总 体 参 数 时 需 与 抽样 概率 相 联 系 . 

在 实际 癌 题 中 ， 抽样 可 以 逐个 进行 ， 即 每 次 只 从 总 体 中 质 取 -个 个 
体 (或 单元 )， 也 可 以 整个 样本 一 次 同时 抽取 、 在 逐个 拖 取 时 ， 每 次 被 招 
到 的 个 体 可 以 不 放 回 也 可 以 重新 放 回 总 体 中 去 .前 者 称 为 不 放 回 不 笠 
(sampling wishout replacement); 后 者 称 为 政 回 抽 样 Ksampling with 
Teplacemen$)。 如 果 整 个 样本 一 次 治 时 抽取 也 是 一 种 不 放 回 抽样 。 另 
和 外, 当 抽取 总 体 中 的 每 个 个 体 ( 或 尚未 进入 样本 的 个 体 ) 时 , 个 体 被 抽 中 的 
固 率 可 以 是 等 概率 的 ,也 可 以 是 不 等 概率 的 , 前 者 称 为 等 概率 抽样 (gam- 
pling with equal probabilities)， 后 者 称 为 不 等 概 兴 抽 冬 (sampling 
with unequsl probabilities) . 

概率 抽样 的 优点 是 能 够 保证 样本 的 代表 性 , 避免 人 为 的 干扰 和 偏差 ， 
它 还 能 对 和 让 于 抽样 引起 的 误差 一 抽样 误差 进行 估计 。 因此 采用 概率 抽 
样 可 以 获得 估计 的 精度 ， 鉴 于 这 两 个 原因 , 概率 抽样 是 最 科学 、 应 用 最 广 
泛 的 一 筝 抽样 方法 ， 因 此 只 要 有 可 能 , 就 应 尽量 采用 概率 抽样 . 

有 时 概 宣 抽样 在 实际 中 难以 实现 ， 例 如 从 一 闻 货 物 堆 得 很 满 的 仓库 
中 进行 岳 样 , 或 从 大 气 或 江河 海洋 中 采取 大 气 样 或 水 祥 , 这 时 样本 通常 只 
能 在 局 限于 总 体 的 茶 一 部 分 中 抽取 ， 而 和 且 也 难于 严格 地 按 一 定 的 入 率 原 
贴 来 进行 抽样 。 也 有 这 种 情况 ， 由 于 经 费 和 时 间 的 限制 而 不 能 进行 严格 
的 概率 抽样 ， 在 这 些 情 形 ， 就 只 能 采用 某 种 非 概 率 抽样 . 一 种 常用 移 非 
概率 抽样 是 所 谢 的 判断 拍 桩 , 或 称 经 验 抽样、 这 种 抽样 是 根据 抽样 者 的 
主观 经 验 和 判断 ， 从 总 体 中 选择 “ 乎 区 ”的 或 认为 有 代表 人 性 的 同时 又 容易 
取得 的 个 体 作为 样本 ， 当 总 体 变 差 较 大 , 而 抽 祥 的 数量 又 不 能 很 大 时 , 判 
断 独 样 有 可 能 提供 比 概率 手 样 更 为 准确 的 估计 .这 是 因为 判断 抽 桩 的 精 
度 主 要 取决 于 抽样 者 的 经 准 ， 与 样本 量 (sample iize) 关 系 不 大 ， 而 概率 
抽样 的 精度 主要 阳 决 于 样本 量 . 除了 有 主观 随意 性 外 ,判断 抽样 的 另 一 
个 缺点 是 不 可 能 定量 犹 得 估计 的 精度 ， 还 有 一 种 常见 的 非 概 率 抽 样 形 
式 , 此 时 样本 完全 或 几乎 完全 由 “志愿 者 ”所 组 成 , 例如 刊登 在 报刊 杂志 上 
的 读者 意见 的 调查 , 调查 表 是 否 寄 回 完全 随 读 者 的 意愿 决定 , 因而 这 种 调 
查 结 果 只 是 反映 了 这 部 分 “热心 读者 的 意向 。 在 某 种 意义 上 看 ， 这 根本 
就 不 能 算是 一 种 抽样 调查 了 . 


.3.3 抽样 单元 与 抽样 框 
为 使 概率 抽样 能 够 实施 , 同时 也 为 了 具体 抽样 的 便利 , 道 常 将 总 全 则 
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分 成 互 不 重 选 昌 又 穷尽 的 若干 部 分 ， 每 个 部 分 称 为 一 个 抽样 单元 (samr- 
Piling unit)。 抽样 单元 不 一 定 就是 组 成 兽 栖 的 最 小 单位 , 即 前 面 所 说 的 
个 体 ， 但 有 时 乌 也 可 直接 把 个 体 作 汐 抽 祥 单元 ， 总 体 中 的 抽样 单元 数 一 
定 是 有 限 的 , 而 且 是 已 知 的 。 这 正 是 在 1.2.1 了 段 中 提 到 的 , 我 们 总 是 把 总 
人 钵 局 限 为 有 限 总 体 的 缘 放 . 抽 样 单元 的 划分 可 以 有 较 大 的 选择 余地 ， 例 
如 在 电视 收视 率 抽 祥 调 查 中 , 可 以 将 每 个 电视 观众 作 汰 抽样 单元 , 记 可 以 
将 每 个 拥有 电视 机 的 家 庭 作 为 抽样 单元 ， 在 人 口 变动 量 抽样 调查 中 可 以 
将 县 、 乡 (街道 或 居民 委员 会 (< 村) 作为 抽样 单元 ， 抽 样 单元 可 以 是 当然 
形成 的 , 例如 各 级 行政 单位 .机 关 、 学 校 、 工厂 以 弃 个 人 ; 也 可 以 是 大 为 划 
分 的 , 例如 为 调查 田地 中 的 害虫 总 数 , 将 整 块 田 据 划分 成 每 过 长 一 米 的 正 
方形 小 氛 , 而 将 每 个 小 其 作为 一 个 抽样 单元 . 抽样 单元 又 可 以 有 大 小 之 
分 ， 一 个 大 的 抽样 单元 (例如 省 ) 可 以 分 成 若 于 个 静 小 的 单元 (例如 县 》. 
前 者 称 汐 初级 单元 或 一 级 单元 (primaary sampling unit, 简 记 为 PSU), 
后 者 称 为 次 级 单元 或 二 级 单元 (secondary sampling unii]. 次 级 单元 
又 可 分 为 更 小 的 三 级 单元 .四 级 单元 等 ， 将 抽 祥 单元 分 级 , 主要 是 基 才 呈 
体 抽样 方法 的 考虑 , 例如 多 阶 牛 样 与 整套 抽 样 . 

在 总 笨 中 按 抽 祥 单元 进行 概率 抽样 时 ， 需 要 一 份 有 关 扫 样 单元 的 各 
斯 、 清单 或 地 图 。 记录 或 表明 总 体 所 合金 部 (初级 ) 抽 样 单元 或 一 个 较 六 
扫 样 单元 所 包 食 全 部 次 一 级 铀 样 单元 的 这 种 名 册 、 清 单 或 地 图 称 沟 近 样 
狂 (sampling frame)。 在 抽样 框 中 , 每 个 扫 样 单元 都 被 编 上 号 . 抽样 框 
着 设计 并 实施 一 个 质 祥 方案 所 必须 具备 的 基础 资料 ， 一 旦 某 个 单元 被 拖 
中 , 也 需要 根据 抽样 框 在 实际 中 找到 这 个 单元 , 从 而 能 够 实施 调查 . 


1.2.4 ”总体 参数 的 分 类 

抽样 调查 的 主要 目的 是 通过 样本 对 我 们 感 兴趣 的 茶 些 总 体 参 数 进 行 
佑 计 ， 这 些 总 体 参数 也 就 是 调查 的 目标 量 . 通常 需 估计 的 总 体 参 数 可 以 
归纳 为 以 下 几 类 : 

总 体 总 和 (Population total)， 例 如 全 国人 口 数 ， 一 个 地 区 某 年 
的 粮食 总 产 虽 、 我 国 大 熊猫 的 现存 数量 等 - 

2 总 体 均 值 (population mean)， 侧 如 职工 平均 月 工资 、 粮 食 中 下 
均 残 留 的 “六 六 六 ”农药 的 含量 . 某 地 区 粮食 的 市 产量 等 ， 

3) 总 体 中 具有 某 种 特定 特征 的 个 体 总 数 或 它们 在 总 体 中 所 占 的 比 
例 或 百分率 (ProPortion or pereentage)， 例 如 某 地 区 人 口中 在 上 一 年 度 
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死亡 人 数 或 死亡 率 .育龄 妇女 生育 率 , 结核 靖 患 病 率 等 . 

4) 总 体 西 个 不 同 措 标的 总 和 或 均 信 的 比值 (ratio):， 钢 如 家 庭 中 用 
于 食品 的 支出 在 总 支出 中 所 占 的 比例 . 茶 地 区 学 龄 几 童 的 在 校 它 ( 若 该 地 
区 学 龄 儿童 总 数 也 要 通过 调查 才能 合计 ) 等 . 

5) 总 体 分 位 数 ， 例 如 我 国 成 年 人 身高 、 胸 国 、” 感 轩 等 人 体 尺 寸 的 
55% 50%, 95% 分 位 数 等 . 

土 述 五 种 总 体 参 数 中 的 前 四 种 都 有 不 同 程度 的 内 在 联系 。 若 记 总 体 
中 第 人 个 单元 的 某 个 润 查 指标 值 为 了 2 一 1， 23, …, 术 ), 则 总 体 总 和 


了 了- 容 了 ， (1.1) 
与 总 体 均值 
只 相差 一 个 已 知 的 常数 三 、 而 车 令 
六 一 党 总 你 中 第 $ 个 单元 具有 所 考虑 的 特征 dg) 


0, 和 否则. 
则 总 悼 中 具有 这 种 特征 的 单元 总 数 和 了， 比例 卫 ~ 了 了 .。 因此 前 三 种 总 
体委 数 在 数学 处 型 意义 下 是 等 价 的 . 

至 于 总 体 两 个 不 同 指标 的 总 和 或 均值 之 比 


R= 


斑 
有 别 于 3) 中 的 卫 , 因为 此 时 天 (或 丸 ) 也 需要 从 样本 中 估计 ， 因 臣 吾 与 
卫 的 处 理 ， 特别 是 对 它们 估计 坚 的 精度 进行 估计 时 要 采用 不 同 的 处 球 方 
式 - 


1.2.5 误差 来 源 与 精度 表示 


抽样 湖 查 中 的 误差 来 源 主要 有 两 个 ， 一 种 称 为 非 抽 样 误差 (non 
sampling error)， 它 大 由 于 调查 中 获得 前 原始 数据 不 正确 (例如 测量 误 
差 放 处 样 框 有 缺陷 (抽样 框 中 的 抽样 单元 有 重复 或 遗漏 )、 或 在 调查 中 由 
手 种 种 原因 无 法 得 到 按 抽 样 设计 方案 的 全 部 样本 数据 (例如 部 分 调查 对 
象 拒绝 回答 问题 ) 等 原因 引起 的 。 这 种 误差 在 全 面 调查 中 也 是 普遍 存在 
欧 . 为 减少 非 抽 样 误差, 必须 通过 改进 调查 表 的 设计 或 测试 方式 , 严密 调 
查 组 织 , 提高 调查 员 的 素质 以 及 加 强调 查 中 各 个 环节 的 质量 控制 , 才能 见 
葡 。 对 茶 些 问题 ， 鲍 如 测量 误差 以 及 不 男 管 误差 (non-response error) 


{1.4) 


MI 
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对 调查 结果 的 影响 需 根 据 具 体 情况 特殊 处 理 、 另外 ， 对 于 不 易 闭 得 被 梁 
查 者 真实 情况 的 诸如 敏感 性 问题 的 调查 也 必须 通过 设计 特殊 的 调查 方法 
进行 处 理 . 

抽样 调查 误差 的 另 一 来 源 是 由 于 我 们 实际 上 是 用 局 部 的 样本 数据 对 
整 体 的 总 体 参 数 作 出 逢 计 所 引起 的 误差 这 部 分 误差 称 为 抽 祥 误差 。 拖 
样 误差 愈 小 , 人 镶 计 量 的 精度 就 愈 高 ， 在 本 书 中 主要 考虑 这 种 误差 . 

车 令 台 是 通过 样本 获得 的 对 总 体 某 个 参数 8 的 估计 ， 则 独 祥 误差 一 
般 用 以 下 的 均 方 误差 (mean square error) 来 表示 : 

MSE(H)= BE(O—0)’, (1.5) 
式 中 的 加 表示 数学 期 望 (均值 )、 由 于 9 是 未 知 和 的 , 因此 均 方 误差 并 不 总 
是 能 够 得 到 的 或 精确 估计 的 。 均 方 误差 可 以 分 解 成 本 个 部 分 : 
MSE( 分 一 盏 [人 一 如 (全 十 再 (个 ) 一 的 2 


— EO— EO1+ [EO 一 由 2 {1.6) 
上 式 中 的 第 一 项 
VO aH BO (Ly 
是 下 的 方差 (variance), 而 第 二 项 
BB) 人 [至 (8) 一 拉 (1.8) 
是 下 的 仿 倚 (bins) | 召 ( 人 ) 一 9| 的 平方 , 偏 愤 为 零 的 估计 量 , 也 即 糖 足 
EO ~0 (1.9). 
的 全 计量 名 称 为 无 信 估 计生 (unbiased estimator)， 对 于 无 偏 信 计量 ， 
它 的 均 方 误差 即 蚌 它 的 方差 . 


有 时 也 用 相对 均 方 误差 (Telative mean square arror)JMS 卫 (及 /62 或 
相对 方差 (relative variance)y (9)/0? 来 表示 5 的 精度 、 

如 果 一 个 知 计量 的 偏 居 及 方差 都 随 着 样本 量 % 的 增 庆 而 残 小 ， 而 且 
偏 倚 比 均 方 误差 的 平方 根 小 得 更 快 , 即 

二 六 a 

则 区 这 个 估计 重 是 可 用 的 (feasible)。 对 可 用 悄 计 量 ， 只 让 % 足 够 大 ， 
6 的 精度 主要 到 次 于 台 的 方差, 或 它 的 平方 根 8(9) 一 MF0B), 即 人 的 标 
准 差 (standard deviation)。 

由 于 我 们 通常 不 对 总 体 分 布 作 任何 假定 ， 又 因为 样本 的 复杂 性 ， 在 
插 祥 调查 中 , 一 个 估计 时 6 的 精确 秃 布 是 无 法 求 得 的 ， 但 近期 的 研究 表 
明 , 在 某 些 假定 下 , 一 定 类 型 的 复杂 样本 (例如 分 层 随 机 样本 ) 佑 计量 的 分 
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布 ， 在 大 样本 时 是 近似 正 态 的 ， 在 一 般 情 形 , 虽然 没有 严格 的 理论 证 明 ， 
但 许多 模拟 结果 也 得 出 类 似 结论 ， 据 此 , 对 于 一 个 可 用 的 估计 匡 , 只 要 
样本 量 % 足够 大 , 可 以 构造 8 的 给 定 置 信 水 平 L~a 的 近似 置信 区 亲 : 

6 二 uaw/ 太 (的 或 EtwaS cb), 1,41) 
其 中 ws 是 标准 正 态 分 布 的 双手 & 分 位 数 ， 例 如 若 取 «一 0.05, 则 当 n 大 
时 , 台 的 置信 水 平 为 钻 多 的 近似 置信 区 门 为 ， 


[8 —1.96 S§(6), 8+1.96 8(D)] 。 (1.12) 
代 .11) 式 中 的 
duaS (6b) (1.18) 
称 为 日 的 工 一 w% 置信 水 平 下 的 纯 对 误差 限 , 它 满足 
P| -0 <0 -1—o. (1.14) 
同样 可 以 定义 相对 误差 限 7, 它 满足 
P(E io. (4.15) 
Y 可 由 下 式 确定 : 
+ 一 zacv(8) 一 xuS(6)70， (1.16) 


其 中 Ov( 们 是 和 的 恋 异 系数 (coefficient of variation)。 


1.2.6 样本 量 . 费用 与 效率 


样本 量 即 是 样本 中 包含 前 抽样 单元 的 数目 、 通常 为 了 便于 比较 起 
见 , 它 是 以 最 小 抽样 单元 或 个 体 为 单位 计算 的 。 样本 量 的 确定 也 是 抽样 
调查 中 的 一 个 重要 问题 ， 样 本 量 傅 大 , 抽样 误差 就 愈 小 , 估计 量 的 精度 就 
僵 高 ， 但 样本 量 又 直接 与 费用 有 关 、 样 本 量 傅 大 , 调查 的 费用 也 就 愈 高 . 
最 简单 的 下 用 函数 是 如 下 的 线 伺 费用 函数 , 总 费用 

一 co 十 cny (1.17) 

其 中 oo 是 与 样本 量 ” 无 关 的 固定 费用 ， 包 括 组 织 、 宣 传 、 抽 样 竹 的 准备 . 
等 ; 而 6 是 平均 每 抽 一 个 单元 的 费用 ,包括 调查 术 身 的 费用 、 旅费 以 及 数 
指 处 理 费 四 等 . 

因此 , 一 个 好 的 抽样 设计 必须 同时 考虑 精度 与 费用 两 个 因素 ， 对 于 
一 个 具体 的 抽样 设计 , 应 尽量 做 到 在 固定 的 费用 限制 下 合 精 度 景 高 , 或 在 
要 求 达到 的 精度 条 件 下 , 使 调查 的 总 费用 最 省 ， 换 言 之 , 我 们 要 求 设计 的 
效率 最 高 , 这 样 的 抽样 设计 称 为 最 优 抽 祥 设计 。 
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$1.3 几 种 基本 的 抽样 方法 


对 不 同 项 日 应 采用 不 同 的 抽样 方法 。 最 基本 的 抽样 方法 有 以 下 五 
种 ， 在 实际 问题 中 ， 一 个 具体 的 抽 举 方案 大 多 是 这 五 种 方法 的 各 和 形式 
的 组 合 
1.3.1 简单 随机 抽样 (qim ple random sam pling) 

科 单 随机 独 样 也 称 为 单 地 随机 抽样 。 从 大 小 为 丈 的 总 体 中 逐个 不 放 
回 闻 坊 到 和 % 个 单元 组 成 样本 ， 每 次 镍 取 对 当时 尚未 入 样 的 单元 都 是 随机 
抽取 的 ,也 好 都 是 等 概率 的 ， 简单 随机 样本 也 可 从 总 体 中 一 次 取得 全 部 


"个 单元 , 太 杰 多 部 可 能 的 (”) 种 这 样 的 样本 每 种 被 抽 得 的 概率 都 相 
等 (部 等 于 1/( 人 六))、 注意 ,这 里 所 用 的 “简单 随机 ”与 一 般 数理 统计 文献 


中 的 合 义 不 癌 . 一 般 数 理 统计 书 中 所 请 的 简单 随机 样本 点 痢 在 无 限 总 体 
中 独立 扭 祥 所 得 的 样机 或 在 有 限 总 体 中 放 画 随机 抽样 抽 得 的 样本 ， 因 而 
是 独立 同 分 布 样本 (independently identically distributed Satmple)。 
但 在 本 书 中 保留 绝 大 多 数 有 关 抽 样 调查 文献 中 对 简单 随机 抽样 的 定义 。 

简单 随机 抽样 是 所 有 其 他 抽样 方法 的 基础 。 因 为 在 理论 上 最 易于 处 
理 . 这 种 方法 表面 上 看 简单 易 行 , 但 在 许多 实际 情形 实施 时 有 很 大 的 困 
难 . 主要 原因 是 它 需 要 一 个 对 全 部 基本 单元 的 完整 抽 祥 框 ， 上 且 所 得 的 样 
本 单元 相当 分 散 , 调查 不 便 . 因此 在 大 规模 持 样 调查 中 , 很 少 单独 采用 简 
单 随机 苦 样 . 尽管 如 此 , 它 恢 然 是 所 有 其 他 抽样 方法 的 基础 . 

简单 随机 抽样 中 的 估计 方法 , 通常 是 用 样本 平均 数 来 估计 总 体 均 值 ， 
这 就 是 所 谓 前 单 舍 计 ， 在 有 辅助 变量 可 以 利用 时 , 为 提高 信 计 精度 , 也 可 
以 用 瑟 知 计 和 回归 估计 等 方法 . 
1.8.2 ”分 层 抽样 (stratified sampling) 

将 总 体 中 的 单元 按 基 种 原则 进行 划分 成 为 车 于 个 子 总 栖 ， 每 个 于 总 
笨 称 为 野 。 在 每 层 中 独立 进行 简单 随 祝 抽样 或 其 他 抽样 ， 这 样 的 抽样 就 
称 为 分 层 相 样 。 分 层 抽 样 的 信 计 先 对 各 层 进行 ， 然后 再 综合 对 总 体 参 数 
进行 估计 . 

分 层 抽样 适用 于 调查 本 身 既 需要 对 总 体 进 行 估计 ， 也 需 要 对 局 部 
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《 层 ) 进 行 估计 的 情况 ， 分 层 抽 祥 实施 和 组 织 都 比较 方便 ， 当 层 内 单元 指 
标 差 异 较 小 , 而 层 间 单 元 指标 差异 较 大 时 , 采用 分 层 抽样 可 以 大 大 提高 估 
计 药 精度 ， 例 如 在 家 庭 调查 中 , 将 住户 家 庭 按 城市 .农村 以 及 不 同 职业 分 
层 , 由 于 不 同 层 家 庭 的 收 支 水 平和 生活 习惯 相差 较 大 , 因而 这 样 的 分 层 抽 


群 精度 较 高 - 
1.3.3 整 群 抽样 (cluster sampling)》 

车 总 体 中 的 每 个 抽样 单元 可 以 分 成 若干 次 级 单元 ， 搬 料 仅 对 初级 音 
元 抽 ， 若 某 个 初级 单元 被 搬 中 ， 则 调查 这 个 单元 中 所 有 次 级 单元 , 这 种 处 
样 方 法 称 为 整 群 抽样 ， 这 里 的 群 (cluster) 就 是 指 初 级 单元 ， 便 如 为 对 我 
国 成 年 人 的 人 和 体 尽 寸 进行 调查 , 确定 对 每 个 人 要 测量 96 项 指标 ， 为 才 需 
组 织 专业 测量 队 . 如 果 补 测量 的 人 相对 案 中 , 显然 就 比较 方便, 可 以 大 大 
节省 调 林 点 用 ， 这 是 实 苑 整 群 插 样 的 主要 考虑 -因此 在 这 种 调查 中 ,我 
们 对 韶 你 抽样 ， 锋 j 疆 被 抽 中 单位 的 每 一 个 职工 ， 整 群 抽 料 的 缺点 是 
效率 不 够 高 。 由 于 一 个 群 内 的 (次 级 ) 单 元 多 少 有 点 相似 ， 故 对 每 个 次 级 
单元 都 进行 调查 会 造成 沦 费 ,， 故 若 接 总 样本 景 ( 按 小 单元 ) 计 算 ， 整 群 押 
样 的 精度 比 直接 对 总 体 中 所 有 次 级 单 行 简单 随机 抽样 低 ， 但 这 可 以 
通过 适当 地 多 抽样 来 得 到 弥补 ， 从 从 完 侈 有 可 能 在 总 费 放 遍 回 前 杀 件 下 
获得 更 高 的 精度 . 


1.3.4 多 阶 抽样 (multi-stage sampling, subaampling) 


多 阶 抽样 也 称 多 级 抽样 ， 若 初级 单元 内 的 次 级 单元 相似 程 产 较 大 ， 
正如 前 面 所 说 的 那样 , 调查 所 有 次 级 单元 会 造成 很 大 的 浪费 ， 此 时 -~ 个 
自然 的 想法 是 在 被 拥 中 的 初级 单元 中 青 对 次 级 单元 进行 抽样 ， 这 就 是 二 
阶 抽样 .类似 的 , 可 用 三 阶 扯 样 .四 阶 抽 样 等 .例如 在 全 国 扫 省 .省 中 抽 市 ， 
县 , 市 、 县 中 抽 区 、 乡 或 镇 等 等 ， 多 阶 抽 样 既 保持 了 样本 相对 集中 , 又 避免 
了 不 必要 的 浪费 , 而 且 实 施 世 比较 方便 . 它 也 不 需要 对 每 个 初级 (或 二 级 ) 
单元 都 有 一 个 完整 的 抽样 柜 ， 但 多 阶 抽样 的 估计 比较 困 玲 . 


1.3,5 系统 抽样 (systematic sampling) 


车 总 体 中 的 抽样 单元 接 某 种 次 序 排列 ， 在 规定 的 范围 内 随机 揪 取 一 
个 (或 一 组 ) 初 始 单元 ， 然 后 按 一 赛事 先 确定 药 规则 确定 其 他 样本 单元 的 
抽样 方法 称 为 系统 抽样 。 与 其 他 几 种 抽样 不 同 的 是 , 这 里 只 有 初始 单元 
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是 经 随机 抽 取 的 ; 其 他 样本 单元 都 随 着 初始 单元 的 确定 而 确定 。 最 简单 
的 系统 抽样 是 在 职 得 -- 个 初始 单元 后 ， 按 相等 的 问 天 抽 取 其 他 料 : 本 单 
元 , 这 就 是 所 谓 的 等 距 掀 样 ， 系统 抽样 的 主要 饶 点 是 实施 方便 ,不满 对 所 
有 样本 单元 进行 随 桃 狂 取 ， 也 不 一 定 需 要 一 个 完整 前 抽 祥 框 、 如 果 对 总 
体 单元 的 指标 按 其 排列 次 序 的 变化 规律 有 所 了 解 , 并 加 以 合理 利用 的 话 ， 
系统 抽样 的 效果 也 很 好 . 它 的 主要 缺点 是 , 在 多数 情形 得 不 到 估计 喇 的 简 
单 的 精度 估计 . 事实 上 , 许多 实用 而 行 之 有 效 的 系统 抽样 并 不 属于 严格 
欧 板 率 抽 样 . 

上 面 对 几 种 常用 的 抽样 方法 作 了 简单 的 介绍 ， 在 实际 运用 中 会 有 许 
多 变化 .例如 在 某 些 方法 中 , 入 样 单元 既 可 不 放 回 也 可 放 回 ; 可 以 进行 等 
概率 抽样 , 也 可 进行 不 等 概率 抽 祥 .在 具体 设计 抽样 方案 时 , 还 要 考虑 多 
种 复杂 的 因素 . 这 些 将 在 以 后 各 章 中 分 别 详 述 ， 并 在 最 后 一 章 实 例 分 析 
中 进行 讨论 。 

















$1.4 抽样 调查 的 步骤 


对 抽样 调查 , 不 同 的 项 目 所 包 食 的 步 玉 也 不 尽 相 同 , 但 大 致 上 都 包含 
妈 下 帮 个 重要 的 步 又 : 

1) 明确 调查 的 目的 , 确定 调查 方式 和 所 需 估计 前 目标 量 ， 通 过 一 次 
调查 要 达 至 什么 目的 ?调查 哪些 指标 ? 需要 估计 哪些 目标 量 ? 都 是 首先 
需要 明确 的 ， 因为 调查 的 具体 形式 和 组 织 ， 抽 样 方案 的 制定 以 及 调查 数 
据 的 处 理 都 取决 于 调查 的 目的 和 调查 的 目标 量 。 抽样 方案 确定 后 ， 调 查 
目标 量 的 任何 改动 , 往往 会 使 已 制定 的 方案 不 再 适用 .因此 在 此 阶段 , 主 
持 单位 必须 会 同 有 关 专 家 进行 反复 讨论 和 审定 . 在 这 一 步 又 中 , 首先 要 
确定 总 体 范 围 及 抽样 单元 ， 这 个 问题 有 时 并 不 简单 , 例如 对 残疾 人 的 调 
查 , 首先 要 明确 残疾 人 芍 划 分 标准 . 在 确定 需要 估计 的 目标 量 也 即 总 体 参 
数 时 , 要 注意 防止 列 入 过 多 的 调查 项 目 (指标 )、 项 目 过 多 , 不 仅 会 增加 调 
查 和 以 后 数据 处 理 的 费用 和 时 间 , 还 可 能 使 不 加 管 率 增加 , 并 影响 原始 数 
据 的 质量 , 因而 是 得 不 偿 失 的 .在 这 一 和 阶段 还 必须 同时 确定 调查 的 方式 ， 
是 采用 当面 询问 还 是 通过 调查 天 (或 称 问 卷 ，questionnaire) 或 者 是 两 者 
结合 ? 对 于 需要 技术 测试 的 调查 。 还 要 确定 测试 或 分 析 的 方法 对 调查 
的 目标 量 应 提出 具体 的 精度 要 求 , 作 册 调查 的 经 费 预 算 , 确定 调查 的 标准 
时 刻 等 。 对 调查 表 , 应 在 认真 设计 的 基础 上 , 征求 有 关 专 家 的 意见 , 反复 
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修改 , 力求 完善 。 在 许多 情形 ， 在 正式 调查 前 往往 还 需 进行 一 次 试 调查 
(pilot survey). 

2) 抽样 设计 , 给 出 相应 的 数据 处 理 公式 ， 这 县 一 个 抽样 调查 中 总 体 
设计 前 最 重要 部 分 , 包括 选择 抽样 方案 的 类 型 , 确定 样本 的 抽取 方法 及 洋 
本 量 . 在 制定 具 钵 的 抽样 方案 时 ， 既 要 考虑 方法 的 科学 性 又 要 照顾 到 实 
际 的 可 行人 狂 ， 例 如 设计 一 个 全 国 性 抽样 调查 , 需要 考虑 一 个 多 和 陀 抽样 , 此 
时 前 一 两 阶 抽 祥 是 关键 的 , 必须 采用 一 些 效率 高 的 抽样 方法 ， 复 杂 一 些 
也 无 护 , 因为 前 一 两 阶 的 抽样 可 以 由 设计 者 自己 来 实施 .与 此 相反 , 对 最 
后 一 、 酚 阶 折 样 岗 由 于 涉及 基层 就 必须 采用 尽 可 能 简单 的 抽样 方法 在 
制定 抽样 方案 时 , 还 必须 同时 考虑 到 调查 以 后 数据 处 理 问 题 , 给 出 要 抽样 
设计 相 匹 配 的 总 体 人 参数 的 情 计 公式 以 及 个 计量 的 精度 公式 - 

在 抽样 方案 确定 以 后 ,就 要 实施 抽样 ， 妈 确定 需要 调查 的 样本 单元 ， 
为 此 , 在 事先 要 准备 好 相应 的 抽样 框 及 其 他 有 关 资 料 . 

3) 调查 的 实施 , 即 取得 祥 本 数据 的 过 程 。 为 保证 调查 的 质量 ， 确 保 
原始 数据 尽 可 能 正确 ， 应 建立 相应 的 职能 办 公 室 ， 事 先进 行 调查 员 的 培 
训 , 制定 并 采取 各 种 质量 控制 措施 等 , 

4) 数据 处 理 ， 现 代 大 规模 的 抽 冬 调查 所 获得 的 数据 , 一 般 都 在 电脑 
上 进行 处 理 . 首先 是 编码 并 录入 数据 ,建立 数据 库 。 在 正式 处 理 前 , 要 对 
已 录入 的 数据 进行 编辑 加 工 ， 按 一 定 规则 检 击 并 处 理 原始 数据 中 存在 的 
或 在 录入 过 程 中 混入 的 异常 数据 ， 检 查 方法 应 同时 采用 统计 检查 及 逮 
辑 奏 查 . 经 过 反复 检查 的 数据 即 可 进行 进一步 的 处 理 ， 其 中 最 重要 的 是 
按 在 拙 衬 设 计时 给 出 的 总 体 参 数 的 估计 公式 与 估计 量 精 度 公 式 ， 计 算 每 
个 目标 量 的 估计 值 及 其 相应 精度 ， 特 别 是 方差 与 变 红 系数 的 估计 值 . 有 
时 还 需要 结合 分 析 月 的 进行 其 他 婉 计 处 理 ， 例 如 列 联 雪 分 析 与 多 元 分 析 
等 . 

5) 洞 查 结果 的 分 析 , 提出 最 终 报 告 ， 根 据 数据 处 理 的 结果 以 及 调查 
目的 , 对 调查 结果 进行 综合 分 析 , 提出 最 终 的 调查 报告 ， 

抽样 调查 的 全 过 程 可 用 下 述 的 方 框图 来 表示 (图 1.1). 

栈 必 上 记述 的 步骤 外， 实行 一 项 狂 样 调查 还 有 相当 多 的 行政 组 织 与 
部 门 的 协调 工作 ， 例 恕 , 粮 据 我 国 的 统计 潜 , 任何 一 项 统计 调查 ,如果 在 
本 系统 内 进行 , 要 在 相应 的 统计 部 门 备案 ; 如 果 调 查 对 象 涉及 本 系统 以 外 
前 部 门 或 人 员 , 要 向 相应 的 统计 部 门 电 请 , 在 得 到 批准 后 , 方 可 以 进行 , 否 
向 , 调查 对 象 有 权 不 予 回 答 . 因此 , 在 进行 抽样 调查 之 前 要 履行 必要 的 手 
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续 , 使 调查 合法 并 使 调查 结果 受到 法 律 保 护 . 


调查 目的 及 互 标量 | 





| 基本 二 作 计 刘 | 




















了 了 了 
经 忽 镍 算 发 组织 | 。 | 调查 项 目 及 方式 的 确定 执 棕 方案 的 初 比 设 计 
| 人 | | 
- 了 
| 调查 员 的 组 战 与 培训 | 试 点 油 查 | 








y 了 
[ 男 查 表 或 型 试 方法 长 后 确定 | 上 抽样 方 案 的 确定 | 
| 了 
| | 
了 
-一 一 | 实 施 调 ” 查 | | 效 撕 库 设 计 及 编程 | 
-上 _ + 


数据 编码 未 入 ， 建 数据 库 | 


| _ 静 据 的 编 畦 加 工 | 











| 时 六 河 长 了 到 不 涪 波 池 辽 宣 | 一 、。 | 





数据 处 型 .目标 最 的 估计 及 
精度 估计 ， 其 它 统计 分 析 





图 圭 - 革 抽样 调查 流程 图 


31.5 抽样 调查 的 应 用 与 历史 发 展 


1.5.1 主要 应 用 领域 
抽样 调查 的 应 用 范围 极为 广泛 .要 罗列 全 部 可 能 的 应 用 领域 是 不 可 
能 的 ， 一 般 地 说 ， 凡 需 获得 与 一 个 较 大 系统 (无 论 是 社会 的 还 是 自然 的 ) 
有 关 的 信息 , 都 可 以 应 用 抽样 调查 的 方法 。 以 下 是 儿 个 主要 的 应 用 领域 . 
J) 人口 调查 ， 这 是 最 早 应 用 抽样 调查 的 领域 , 此 的 是 对 一 个 国家 或 
地 区 的 人 口 总 数 、 狗 成 及 其 变动 情 饮 作出 估计 ， 调 查 包括 妇女 生育 .儿童 
出 生 、 人 口 死亡 及 迁移 等 等 内 容 . 
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3) 经 济 调查 ， 包 括 对 各 种 产业 .农业 、 育 四 业 .工商 贸易 .交通 ,市 场 
和 物价 调查 等 . 

3) 社会 调查 ， 包 括 住 户 ( 家 计 ) 调 查 、 劳 动 就 业 、 文化 教育 、 妇 女 地 
位 ,婚姻 ,儿童 情况 以 及 犯罪 情况 调查 等 等 . 

4) 民意 调查 : 这 是 一 种 特殊 的 社会 调查 , 目的 是 了 解 人 们 对 各 种 政 
治 、 社 会 、 经 济 等 方面 问题 的 态度 、 收 求 以 及 对 某 项 政策 或 候选 人 的 支持 
性 度 等 等 . 

5) 卫生 调查 ， 公 共 卫 生 情 况 , 预 防 接种 覆盖 情况 ,疾病 流行 .病因 及 
对 治疗 后 的 随访 等 等 . 

6) 环境 资源 调查 ， 有 关 茜 地 .森林 ,草原 .能 源 .动物 .害虫 的 人 入 计 以 
及 对 大气 .水 质 等 环境 污染 情 讯 的 监测 等 . 

7) 人 笨 测 量 ， 即 对 人 体 各 部 位 尺寸 的 测量 调查 、 用 于 各 种 人 类 工效 
学 标准 (包括 服装 号 型 的 僚 定 ) 等 等 . 

有 除 此 以 外 ， 狂 样 技术 还 广泛 地 用 于 各 种 普查 数字 、 统 计 报 到 数字 可 
车 久 的 校对 与 答 栓 . 帐 目的 审计 以 及 各 种 工业 产品 和 材料 的 质量 ,服务 质 
量 的 调查 评估 等 等 . 


1.5. 另 际 发 展 简 史 

抽样 调查 是 统计 中 应 用 与 发 展 最 时 的 一 个 分 支 ， 从 部 分 推算 整体 的 
思想 由 来 已 入. 坚 在 1663 年 英国 人 了 Graunt 兽 对 伦敦 城 让 保有 较 完 
整 登记 才 册 前 教区 作家 庭 调 查 ， 他 殷 据 一 个 教区 的 洗礼 和 项 社 次 数 来 估 
证 当时 伦敦 的 总 人 口 约 为 384,000 人 .17~18 世纪 的 人 口 统计 学 家 包 
括 英 国 的 WW. Petty 和 F. Halley， 瑞 典 的 P. Wargentin 民有 及 德国 的 
J. PP. Susmich 都 曾 根 据 一 个 地 区 的 部 分 数据 资料 对 整个 地 区 作 过 类 似 
的 推算 . 更 完整 的 工作 覆 数 法 国 著 名 数学 家 卫 . 8. Laplace， 恺 在 1786 
年 写 的 一 篇 关于 巴黎 人 口 出 生 、 死 亡 和 婚姻 状况 的 论文 里 , 就 建议 用 某 些 
地 区 的 上 出生率 来 扒 算 整个 法 国 的 人 口 ， 并 对 稚 算 出 来 的 结 来 的 误差 问题 
进行 了 研究 ， 1802 年 ， 他 在 法 国政 府 的 支持 下 ， 作 了 一 次 统计 抽样 的 实 
验 ， 他 在 全 国 挑 选 了 30 个 社区 , 这 些 社区 的 选择 既 要 抵消 气候 差异 等 地 
区 影响 ， 同 时 要 求 能 够 提供 最 精确 的 信息 资料 . 对 这 些 社区 连续 三 年 出 
生 的 人 数 进行 分 析 , 他 发 现 平 均 每 26.35 个 居民 中 和 拓 年 出生 一 个 婴儿 , 也 
即 出 生 率 为 中. 竺 名 . 所 此 他 推算 出 到 4813 年 时 , 在 法 兰 丁 帝 国 疆 域内 ， 
等 年 出 生 人 数 为 150 厅 人 , 全 国 总 人 口 为 4353 万 ， 他 甚至 还 给 出 了 推算 
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出 来 的 人 口 数 与 实际 人 口 数 之 间 的 误差 为 0.86 筷 ， 

不 过 像 Lapiace 这 样 的 工作 在 当时 还 是 比较 零星 的 ， 较 完整 的 抽样 
调查 工作 起 始 于 上 世纪 90 年 代 ， 那 时 许多 欧洲 国家 相继 在 社会 经 济 领 
域 中 应 用 抽样 亩 查 . 当时 担任 挪威 统计 局 长 的 A. N. Kiaer 在 1891 年 
利用 质 样 调查 佑 计 挪 成全 国 国民 的 收入 和 财产 情况 ， 用 以 研究 该 国人 口 
的 一 些 经 济 和 社会 特征 . 1901 年 丹 才 进行 了 农产品 产量 的 猩 样 调查 . 
英国 的 A&. 工 . Bowley 等 人 也 在 1906 年 及 1913 年 进行 了 社会 经 济 方面 
的 抽样 调查 ， 在 第 一 次 世界 大 战 期 间 ， 美 国 曾 时 抽样 识 查 制定 军服 尺寸 
的 系列 标准 .这些 都 可 以 作为 抽样 调查 的 一 些 早期 应 用 . 

这 些 旱 期 的 抽样 调查 ， 在 样本 抽取 时 广泛 使 用 了 所 请 “代表 性 调查 ” 
(representive investigation) 方 法 . 这 也 是 首先 由 Kiaer 提出 来 的 ， 他 
认为 抽样 调查 的 准确 性 主要 不 取决 于 样本 大 小 , 而 在 于 样本 的 代表 性 .他 
的 思想 是 使 样本 成 为 总 体 的 一 个 缩影 , 样本 单元 不 是 随便 选取 的 , 不 应 有 
主观 偏 误 , 要 求 对 调查 的 可 靠 性 进行 评价 显然, Kiaer 的 这 些 观 点 在 当 
时 是 包含 许多 合理 成 分 的 、 故 在 1908 年 国际 统计 (International 
Btatistieal Jnatitute 即 ISI) 通 过 一 项 决议 ， 引导 和 支持 采用 代表 人 性 方 
法 .但 当时 对 如 何 才能 押 到 有 "代表 性 ”的 样 本， 意见 并 不 统一 ，1926 
年 ISI 指出 在 选取 代表 性 样本 的 许多 方法 中 , 要 区 分 两 种 方法 , 即 随机 朱 
取 和 有 月 的 地 或 有 意 地 选取 样本 单元 ， 后 考 是 尽 可 能 使 抽 属 的 样本 单元 
合并 起 来 能 产生 与 总 体 相近 的 特性 . 这 就 是 目的 性 抽样 (Purposive 
selection)，ISI 强调 需要 随机 抽取 样本 . 

随 着 扫 样 调查 实际 欧 需 要 以 及 统计 基本 理论 的 发 展 ， 从 本 世纪 20 
年 代 起 以 及 其 后 的 两 全 年 代 里 ， 抽 样 调查 的 基本 理论 也 就 乏 步 形成 了 . 
在 这 中 间 首 先 要 提 到 Bowley.R, A, Fisher 和 J. Neyman 等 人 的 交 献 . 
上 面 提 到 的 ISBI 的 关于 抽样 方法 的 推荐 就 包含 了 Bowley 的 许多 建议 ， 
他 所 出 按 抽样 拒 根 据 随 视 或 系统 方法 进行 抽样 以 及 比例 分 配 的 分 屋 灿 样 
方法 , 他 还 强调 了 不 回答 问题 对 调查 可 能 产生 严重 的 影响 . 

统计 大 师 Fisher 从 1919 年 起 在 英国 罗 萨 姆 斯 特 德 (Rothemsted) 
实验 站 长 达 十 余年 的 工作 期 癌 发 展 了 近代 实验 设计 与 方差 分 析 的 理论 与 
方法 ， 在 实验 设计 中 ，Fisher 提出 随机 化 (randomization)、 重 复 
(Teplieation) 及 区 组 (bloek) 三 个 蔡 本 原则、 这 三 个 重要 原则 也 同样 对 
抽样 的 理论 发 展 提供 了 基础 : 随机 化 是 获得 无 偏 估计 的 基础 , 采用 重复 技 
术 使 得 方差 估计 能 驶 在 抽样 获得 的 数据 基础 上 得 以 进行 ， 而 划分 区 组 用 
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于 抽样 即 是 分 屋 ， 目 的 是 为 了 减少 抽样 误差 。 为 了 提高 效率 ，Fiaher 及 
其 在 Rothemsted 的 同事 们 采用 了 多 阶 抽样 .jisher 以 后 ，F. Yates 领 
导 了 该 实验 站 的 实验 统计 部 门 ， 他 对 抽样 调查 的 主要 贡献 在 于 关于 系统 
抽样 的 研究 以 及 二 次 世界 大 战 后 受 联 合 国 的 委托 在 人 口 扯 样 调查 方法 的 
研究 . 

J. Neyman 对 抽 祥 调查 的 贡献 是 在 本 世纪 30 年代， 他 在 1984 年 
的 工作 为 从 有 有限 总 体 中 的 抽样 竟 定 了 基础 。 他 琢 确 指出 : 在 这 以 前 的 任 
何 对 目的 性 抽 樟 给 予 的 理论 描述 不 外 是 分 层 和 整 群 随机 抽样 ， 从 而 排除 
了 专门 对 目的 性 抽样 另 作 理论 探讨 的 必要 性 ， 因此 ，Neyman 大 力 提 倡 
随机 抽 鲜 . 他 对 抽 祥 调查 的 另 一 重大 贡献 是 大 家 部 知 的 建立 了 加 信 区 间 
前 理论 ， 扫 祥 方 法 能 否 为 人 们 所 普遍 接受 的 一 个 根本 问题 是 能 否 对 扫 样 
误差 或 精度 给 予 科学 的 描述 .过 去 有 许多 人 试图 借助 正 态 分 布 去 计算 抽 
样 误差 ， 但 未 能 对 鸽 计 值 的 精度 作出 有 效 的 解释 .。 Neyman 成 功 地 建立 
了 现在 作为 经 典 统 计 最 基本 概念 之 一 的 置 信 区 加 理论 ， 这 个 理论 的 产生 
是 在 对 抽样 前 代表 性 这 个 问题 的 研究 基础 上 产生 的 。Neyman 还 对 分 层 
抽样 中 的 最 优 分 配 、 整 群 抽样 和 比 千 计 理论 等 作出 了 重要 贡献。 其 实 ， 
关于 分 层 抽 样 最 优 分 配 结果 在 Neyman 以 前 就 已 由 前 苏联 统计 学 家 
Tschuprow 在 1938 年 给 出 了 .上 只 是 由 于 当时 苏联 与 外 界 隔 绝 , 未 被 其 
他 学 者 注意 到 . 其 实 自 19 世纪 下 半 时 起 , 俄国 在 调查 统计 方面 的 工作 已 
位 于 世界 前 列 。 十 月 革命 后 ， 询 字 领 导 下 的 苏维埃 政府 也 对 抽样 调查 相 
当 重 祝 。 只 是 后 来 苏联 当 马 自 批 判 摩尔 根 遗 忧 理论 ， 株连 统计 方法 在 社 
会 经 济 上 的 运用 ， 才 使 扯 翌 调查 与 其 他 数理 统计 的 理论 研究 在 很 长 一 段 
时 期 内 阶 于 停顿 . 

20 年 代 末 与 80 年代 初 世界 经 济 大 萧条 产生 的 新 交易 计划 以 及 对 于 
经 流 信息 的 需求 促进 了 美国 在 30 年 代 起 进行 无 数 次 大 规模 的 调查 ， 另 
一 个 促进 抽样 调查 的 应 用 与 研究 的 因素 是 对 社会 导论 调查 即 民意 测验 的 
影响 . 1935 年 美国 著名 的 盖 治 普 (Gallnp) 民 意 调查 所 成 立 . 型 年 ， 它 通过 
随机 抽样 的 原则 对 选民 进行 调查 ， 成 功 地 预测 了 当年 美国 总 统 选 举 的 结 
果 , 从 而 使 它 的 声名 大 振 . 总 之 , 30 年 代 以 来 , 美国 逐 汤 成 为 抽样 调查 理 
论 和 方法 的 发 展 中 心 . 

早 在 1933 年 , Q. W. Snedecor 在 美国 衣 阿 华 (Iowa) 州立 大 学 (位 
于 4mes) 建 立 了 统计 实验 室 . 该 实验 室 与 农业 部 及 商业 部 的 普查 局 (Cihe 
Burear of Qensus) 进行 了 一 系列 合作 研究 。 特别 是 在 多 阶 抽样 设计 及 
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其 优化 河 题 ,以 PPS 抽样 为 代表 的 不 等 概率 抽样 的 可 进 、 系 统 抽样 的 理 
论 与 经 验 研究 .调查 设计 站 畦 助 信息 的 利用 、 非 抽样 误差 . 主 样本 (master 
aazmple) 的 设计 与 应 用 以 及 地 区 抽样 《area sampling) 的 研究 构成 了 现 
代 抽 祥 调 查理 论 与 方法 的 重要 内 容 。 先后 在 这 些 机 构 工 作 的 有 A. 本. 
King. R. J. Jessen, W. G. Cochran, H. D. Hartiey. F. Stephan, M. 
N. Hansen. W. N. Hurwits.J. N. K. Rao 与 W. A. Fuller 等 著名 学 
者 ， 此 外 在 Michigan 大 学 , J. BR. Goodman、 工 . Kish 主持 的 抽样 研究 
中 心 在 控制 抽样 (eontrolled seleetion) 以 及 改进 调查 表 设 计 和 数据 搜集 
程序 方面 都 作 了 大 量 工作 . 近年 来 ，L. Kish 还 领导 了 在 调查 方法 方 而 
的 国际 培训 . 

在 其 他 国家 , 特别 是 在 第 三 世界 中 , 应 该 特别 提 到 的 是 印度 统计 学 家 
的 贡献 . 早 在 本 世纪 30 年 代 , P. 0. Mahalanobis 创建 了 印度 统计 学 院 ， 
成 为 印度 手 样 调查 的 私 威 机 构 . Mahalanobis 特别 注重 抽样 设计 的 实效 ， 
即 在 费用 与 精度 之 闻 取 得 平衡 的 最 优 设计 ， 企 还 最 早 提出 了 交叉 子 样本 
{interpenetrating sunbsamples) 的 概念 ， 后 来 成 为 估计 复杂 样 杰 合计 量 
方差 前 重要 方法 一 一 随机 分 组 (random group) 及 其 他 重复 方法 
《replicated methods} 的 基础 另 一 位 印度 绕 计 学 家 了 . V. Suklatme 
对 分 层 抽 样 及 非 抽样 误差 估计 等 方面 也 作出 了 重要 韵 贡 献 。 

此 从 ， 加拿大 学 者 NN. Keyfitz 与 I. Fellegi 及 瑞典 学 者 下 . Dale- 
nius 等 在 抽样 调查 的 理 沧 与 实践 中 也 作出 了 重要 的 贡献 . 

最 后 我 们 应 该 提 及 联合 国 对 抽样 调查 的 发 展 和 推广 所 起 的 作用 . 联 
合 国 统计 司 (8Statietioal Ofhee of the Unitied Nations) 早 在 1947 年 就 成 
立 了 以 R. A. Fisher 为 顾问 ，P. 0. Mahalanobis 为 主席 的 包括 下 
Yates、 到 ,也 Deming 等 人 的 抽 祥 分 委员 会 (UN Hubcommission on 
Sampling) 发 表 了 一 系列 指导 性 的 文件 . 这 些 文件 包括 专题 报告 和 手册 ， 
为 其 成 员 国 , 特别 是 第 三 放 界 国家 抽样 调 查 的 容 用 与 推广 , 改进 这 些 国家 
统计 数字 的 质量 都 起 了 极 大 的 作用 . 


1.5.3 ”我 国 抽样 调查 的 应 用 与 发 展 

由 于 历史 原因 , 我 国 抽样 调查 的 研究 与 应 用 起 步 较 晚 。， 长 期 以 来 , 我 
有 关 部 门 大 多 是 通过 定期 统计 报表 来 收集 统计 资料 的 。 新 中 国 建立 后 
的 前 三 十 年 ， 抽 样 调查 未 得 到 足够 的 重视 .， 全 国 范围 内 的 应 用 主要 是 在 
1955~1958 年 以 及 1962~1966 年 两 个 短暂 时 期 内 ， 由 国家 统计 局 开展 
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的 住户 调查 和 农 产 量 调查 ， 其 中 50 年 代 进 行 的 农民 家 计 调 查 柳 羡 了 种 
个 省 、 市 、 自 治 区 的 16468 户 。 在 60 年 代 进行 的 类 似 调 查 覆 盖 了 2 个 
省 、 市 、 自 治 区 的 18000 户 。 1968 年 进行 的 农 产 量 调查 覆盖 了 150 个 县 
15000 个 生产 大 队 , 实测 地 抉 4 万 个 . 在 其 后 的 两 年 内 , 调查 前 县 .大 队 和 
实 潭 地 抉 分 别 增 加 了 两 悄 与 一 信 .。 与 此 同时 还 组 织 了 全 国 规模 的 城市 
职工 家 计 调 查 。 这 些 调查 在 “文化 大 革命 * 期 间 均 告 停 顿 ， 另 一 方面 , 建 
国 头 30 年 内 , 我 国 统计 理论 界 中 专门 从 事 抽样 理论 与 方法 研究 考 更 是 究 
若 晨 星 。 需 要 着 重 指出 的 是 ; 我 国 统计 界 前 辈 许 宝 艰 先生 曾 在 60 年 前 后 
在 北京 大 学 主持 一 个 有 关 抽 样 调查 的 讨论 班 。 根 据 许 先 生 当时 摆 写 的 讲 
义 整 理 出 版 的 著作 < 抽 祥 论 ?> 至 今 在 我 国 统计 界 仍 有 很 大 影响 

党 的 十 一 届 三 中 全 会 以 后 , 我 国 实行 了 改革 开放 政策 , 社会 经 济 面貌 
发 生 了 根本 的 变化 。 在 农村 各 部 分 城市 企业 中 , 逐渐 实行 了 承包 资 任 制 ， 
具 和 有 中国 特色 的 社会 主义 市 场 经 济 逐 步 形成 并 世代 过 去 单一 的 计划 经 
济 。 以 前 可 以 通过 报表 制度 获得 的 统计 资料 在 新 的 条 件 下 愈 来 愈 困难 . 
收 革 开 放 也 导致 人 们 观念 的 更 新 和 思想 活跃 ， 各 级 领导 和 决策 部 门 以 
及 ~- 些 学 术 机 构 记 需要 了 解 掌握 各 阶层 人 们 现状 ， 及 他 们 对 社会 中 各 种 
问题 的 看 法 和 愿望 ， 工 商 企 业 集 团 需 要 了 解 各 消费 阶层 对 其 产品 的 需求 
与 爱好 ， 了 所 是 各 种 类 型 的 抽样 调查 应 运 而 生 .， 因 此 进入 80 年 代 以 来 , 我 
抽样 调查 的 应 用 与 研究 迎 来 了 一 个 全 面 发 展 的 新 时 期. 

十 多 年 来 , 国家 统计 局 继续 承担 了 国内 最 大 量 的 抽样 调查 实际 工作 . 
为 了 适应 新 形势 的 需要 ，1984 年 国家 统计 局 成 立 了 城市 社会 经 济 调查 总 
办 与 农村 社会 经 济 调查 总 队 , 在 各 省 、 市 . 自治 区 也 建立 了 相应 前 队伍 .其 
羊城 油 队 "在 146 个 市 , 80 个 县 建 队 , 编制 4500 人 ;“ 农 调 队 > 在 857 个 县 
建 队 , 编制 8500 人 ， 两 队 分 别 在 城市 与 农村 进行 定期 的 城市 与 农村 住户 
的 抽样 调查 , 规模 都 数 以 万 计 .“ 农 调 队 ”还 进行 农村 经 济 基本 情况 和 农 产 
量 的 抽样 调查 .1994 年 新 成 立 了 企业 调查 队 , 另外 ， 国家 人 口 普查 办 公 
室 从 1983 年 起 , 等 年 进行 一 次 全 国人 口 变动 量 的 抽样 调查 . 可 以 说 , 这 些 
都 是 目前 世界 上 进行 的 最 大 规模 的 抽样 调查 .尽管 上 述 抽样 调查 的 方法 
还 比较 单一 , 还 存在 某 些 具体 问题 有 待 解决, 但 发 展 势头 是 十 分 喜人 人 的. 
最 近 周 家 统计 局 又 所 出 今后 的 调查 方法 将 以 抽样 调查 为 重点 ， 以 普查 为 
框架 , 同时 大 力 加 强 对 抽样 调查 方法 的 应 用 研究 . 

除了 国家 统计 局 系统 外 ， 抽样 调查 在 卫生 部 门 与 林业 部 门 也 有 较 长 
的 应 用 历史 。 在 卫生 部 门 多 次 开展 各 种 流行 病 学 的 抽样 调查 ， 在 林业 部 
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门 则 多 将 抽样 译 查 用 于 动 植物 资源 的 估计 上 .， 在 其 他 行 亚 ， 例 如 交通 部 
门 , 也 从 1988 年 起 开展 全 国 范 围 内 定期 的 公路 与 水 路 交通 运输 量 的 抽样 
调查 、 此 外 , 随 着 多 种 社会 调查 特别 是 市 场 调查 的 需要 , 各 地 先后 成 立 了 
社会 调查 研究 所 ， 市 场 研究 (调查 ) 中 心 等 半 官 方 的 或 民间 的 以 抽样 调查 
为 任务 的 机 构 . 

十 多 年 来 , 在 国家 有 关 部 门 组 织 下 , 还 进行 了 多 次 不 同日 的 的 全 国 性 
的 专项 抽 祥 调查 , 以 下 是 其 中 影响 较 大 的 , 不 同 领 域 的 若 丁 项 目 ; 

1) 全 国 高 血压 流行 病 学 手 样 调查 (1979, 1991); 

2) 全 国 结核 病 流 行 病 学 抽样 调查 (1979, 1985, 1990)s 

3) 全 国 千 分 之 一 妇女 生育 力 调查 (1982); 

4 全 国 粮 食 农 药 污染 情况 抽样 调查 (1984); 

多 中 国 成 年 人 人 伍 测 量 调查 (1986); 

6) 中 国 74 个 城镇 人 启 迁 移 抽样 词 查 (1986); 

了 7)》 全 国 科学 研究 与 开发 机 构 情 况 调查 (1985, 1986)， 

8》 中国 60 岁 以 上 老年 人 口 抽 样 调查 (1987); 

9) 全 国 残 疾 估 抽样 调查 (1987); 








































































































40) 中 国 儿 童 捕 说 抽样 鹿 查 (1987, 1992); 
11) 为 修订 < 服装 号 型 > 国家 标准 人 体 测 量 调 查 (1937)#; 
13) 全 国 科技 人 人员 流动 情况 抽样 调查 (1987); 

13) 多国 专 业 技 术 人 员 情 况 抽 样 调查 (1987); 

了 人 金 国 电视 驶 众 抽 样 调查 (1987); 

15》 人 金 国 1 名 人口 抽样 调查 (1987); 

16) 全 国 科技 奖励 工作 抽样 调查 (1988)s 














17) 中 央 电 袖 台 收视 率 抽 祥 调查 (1989~); 

18) 全 国 回 国 留学 人 员 情 况 抽 样 调查 51989); 

19) 石油 系统 干部 情况 抽样 调查 (1989); 

20) 全 国家 用 电器 用 户 抽样 调查 (1990); 

21) 公众 对 科学 技术 的 态度 抽样 调查 (1990, 1992); 
22) 亚运 会 广播 电视 宣传 效果 抽样 调查 (1990); 

233) 人 金 国 办 公 自 动 化 抽样 油 查 (1991); 

34) 中 国 妇 女 社会 地 位 抽样 调查 (1991); 

35) 全 国 档案 害虫 分 布 与 危害 情况 调查 (1990 必 1991)# 
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$1.5 抽样 调查 的 应 用 与 历史 发 展 2 


26) 中 国家 庭 经 济 与 生育 调查 (1991); 

27) 全 国 服装 消费 行为 调查 (1992): 

38) 国家 卫生 服务 总 调查 (1993) - 

藉以 上 列举 的 项 目 可 以 者 到 最 近 十 多 第 来 我 国 抽样 调查 应 用 前 广泛 
和 深入 程度 .实际 应 用 的 需要 也 推动 了 对 抽样 调查 方法 与 理论 的 研究 . 
上 述 项 目 中 的 大 多 数 事 先 都 进行 了 科学 的 抽样 设计 ， 对 多 数 项 目 也 有 与 
谈 计 配套 的 数据 处 理 方法 ， 这些 都 为 进一步 发 展 和 推动 抽样 调查 前 应 用 
与 研究 商定 了 坚实 的 基础 . 在 本 书 的 最 后 一 章 , 对 上 宣扬 列 的 车 于 项 目 
作为 案例 进行 具体 的 介绍 与 分 析 .。 




















简单 随机 抽样 


简单 随 宙 抽样 (simple random sampling) 也 称 单 纪 随 机 扫 样 。 从 
理论 而 言 , 这 种 抽样 是 最 简单 .最 完善 的 , 因此 它 构成 抽样 理论 的 基础 .在 
实际 中 ， 简 单 随机 抽 祥 从 样本 抽取 角度 也 是 相当 简单 的 ， 尽 管 就 调查 的 
实施 而 言 , 按照 简单 随机 抽样 可 能 存在 许多 实际 困难 , 从 而 促使 我 们 考虑 
其 他 抽样 方法 ， 例 如 分 层 抽样 和 多 阶 贡 料 ， 但 即使 在 那些 相对 复杂 一 些 
的 抽样 中 , 屋内 把 样 或 最 后 一 .两 踢 抽样 也 大 量 需 要 应 用 简单 随机 抽样 . 

在 一 些 文献 中 , 简单 随机 抽样 又 分 为 两 种 不 同 的 情形 , 即 不 放 回 简单 
随机 抽样 (gimple random sampling withoui replacement, 简 记 为 SRS 
WOR) 及 放 回 简单 随机 抽 祥 (simple random sampling with replaee- 
ment, 简 记 为 SRS WR). 在 本 书 中 ， 除 非特 吻 声 明 ， 我 们 将 简单 随机 
抽样 都 限制 为 前 一 种 情形 一 一 不 放 回 简单 随机 扫 祥 .在 本 章 前 几 节 中 只 
讨论 这 种 情形 ， 仅仅 在 $ 2.5 中 简要 地 讨论 一 下 放 回 简单 随机 抽样 ， 以 
合 与 一 般 的 不 放 加 情形 进行 比较 . 


$2.1 定义 及 实施 方法 


2.1.1 从 一 个 有 限 总 体 中 抽取 所 有 可 能 的 样本 

设 总 体 由 防 个 抽 磋 单元 组 成 , 丰 已 知 ， 合 在 其 中 间 摘 取 和 包含 多 个 抽 
入 单元 的 祥 本 , 称 中 为 样本 量 (sample sjze), 是 一 个 固定 的 数 . 为 讨论 样 
本 的 抽取 方法 , 我 们 从 一 个 简单 的 实验 例子 出 发 , 研究 从 一 个 总 体 中 可 能 


政和 担 芍 全 部 样本 . 
例 2-1 一 个 简单 的 实验 例子 : 考察 一 个 玉 一 8 的 总 体 ， 我 们 关心 某 


个 指标 (变量 ) 多 ,第 5 个 个 林 ( 单 元 ) 的 指标 值 了 , 如 表 2.1 所 示 。 
从 上 述 总 钵 中 扫 取 mw 一 2 的 样本 , 可 能 样本 的 总 数 为 


8 81! 
(sz Bx6l 28- 
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洋 3.1 一 8 的 一 个 人 为 总 体 


Ye | 4 6 5 10 7 3 中 5 









































工 | Pu Ya | 和 6 5.0 2.0 | 15 | Ys Ys |57 6.0 2.0 
2 | Fu Ya |45 .5 0.5 | 16 | Ys Ys | 5,3 4.0 2.0 
3 | 到 Te a,10) 7.0 18.0 | 17 | Ys, F1 | 5,8 6.5 CR 
4 | Yr Ys |47 5.5 4.5 |‖ 18 | Ys, Pe | 5,5 5.0 0.0 
5 | Y,, Ye |4,3 8.5 0.5 | 19 | Y, Ps |ao7 8.5 4.5 
6 1 Yi Yr {4,8 6.0 8.0 | 20 | Ys, Ze |10,3 6.5 24.5 
7 | Fa Ye [4,5 4.5 0.5 | 231 | Ps, Pr 120,8 9.0 2.0 
8 | Yz, Fs |6 5 5.5 0.5 | 28 | Y,, Ys |10,5 7.5 12.5 
9 | Ys, Ye |6, 10 8.0 8.0 | 23 | Ys, Ye | 7,3 §,0 8.0 
10 | Ys, Ys |6, 了 6-5 0.5 | 24 | Ys, Yr | ms 7.5 0.5 
11 | za Ys |6. 3 4.5 4.5 |‖ 25 | Fs, Ye | 7,5 6.0 2.0 
13 | Pa Zr |6,8 7.0 2.0 ‖ 26 | Yo, Yr | 3.8 5.5 12.5 
13 | Ys Ya |6,5 5.5 0.5 | 27 | Po, Ys | 3,5 4.0 2.0 
14 | zs Ps 15, 40 7.5 13.5 | a8 | zze|s5 6.5 4.5 


每 个 样本 包含 的 单元 如 表 2.2 所 示 . 为 简便 起 见 , 我 们 也 用 工 (表示 第 
个 单元 . 

注意 : 表 2.2 中 238 个 样本 有 一 个 共同 的 特点 ， 即 同一 单元 在 一 个 样 
本 中 都 没有 重复 , 因此 上 述 样 本 不 包括 (P+, 了 ,) 《Ys, 了 2 等 . 如 果 样 本 
中 的 两 个 单元 是 从 总 体 中 逐个 抽取 的 ， 这 就 意味 着 抽 到 第 一 个 样本 单元 
后 ,不 把 它 放 回 总 体 中 ,而 在 其 余 7 个 单元 中 抽 第 二 个 样本 单元 ， 这 种 抽 


祥 就 是 不 放 回 搓 样 . 
2.1.9 ”两 个 等 价 的 定义 
在 实际 问题 中 , 我 们 只 需要 按 一 定 抽 冬 方法 从 总 体 中 抽取 一 个 样本 ， 
区 
也 即 全 部 ( 个 可 能 样本 中 的 一 个 一 个 简单 且 合理 的 原 风 是 贫 这 (六) 


个 样本 每 个 被 抽 到 的 概 率 都 相等 、 满 足 这 个 条 件 的 抽样 方法 就 是 (不 放 


回 ) 简 单 随机 抽样 . 
定义 史 .1 从 总 体 中 的 六 个 单元 中 ,一 次 抽取 % 个 单元 , 使 全 部 可 能 
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的 ( ) 和 不 同 的 结果 每 种 被 撒 到 的 概率 都 等 于 1 人 这 种 儿科 次 为 


单 随机 查 幸 ， 按 简章 随机 抽样 , 抽 到 的 样本 称 为 简单 随 负 样本 ， 

当 丈 、n 比较 大 时 , 按 上 述 定义 进行 抽样 是 很 不 方便 的 。 因为 此 时 
(人 ) 和 大 要 列 出 全 部 可 能 的 样 冰 是 不 现实 的 。 此 时 车 按 下 面 技术 的 定 
义 ,就 较为 容易 实施 了 ， 

定义 3.2 从 总 体 中 的 丈 个 单元 中 ， 未 个 未 放 回 地 摘 取 单元 ， 每 次 
抽取 到 尚未 在 样本 (未 入 嫩 ) 中 的 任何 一 个 单元 的 概率 卷 相等 ， 直 到 抽 足 
久 个 单元 为 止 , 这 样 所 得 的 n 个 单元 组 成 一 个 简单 随机 样本 ， 

以 上 两 个 关于 简单 随机 下 祥 的 定义 是 等 价 的 ， 为 此 我 们 只 要 证 明 每 
个 包含 有 按 定义 2.2 莉 得 的 完全 禄 同 单元 的 样本 被 抽 到 的 概率 等 于 


1 Ra7. 


设 按 定 义 2.3, 先后 被 抽 中 的 单元 导 码 为 和 io，…, 家 ， 和 相应 的 样本 
秆 为 了 sa, 了 。,，…, 了 Pi 则 抽 到 这 样 一 个 有 序 样本 的 概率 为 ， 











PrPu, Pa, «ee, Fi) 
PAYOPAY YTD PAT Ya, Yo, ~ Yi) 
1 1 1T -ui 

NH- WnTtLi Nr 


实际 上 ， 一 个 样本 是 不 需要 考 虚 其 中 单元 抽取 时 欧 顺 序 的 、 一 个 包 
含有 ”个 指定 单元 的 样本 , 其 单元 抽取 的 顺序 共有 m1 种 不 同 的 形式 ， 因 


此 抽 职 到 包含 有 这 nt 个 单元 的 样本 的 总 概率 海 
(Nn)in! _ 1 


NN! YNY* 
tj) 
2.1.3 简单 随机 抽 洋 的 实施 方法 
根据 定义 , 简单 随机 抽样 丙 用 以 下 两 种 方法 来 实现 : 
方法 ( 抽 敬 法 )” 艇 术 个 答 , 分 别 编 上 ~ 六 号 ， 完 全 均匀 混合 后 ， 
一 次 同时 抽取 个 签 或 一 次 抽取 一 个 签 但 不 把 这 个 签 放 回 ， 接 着 抽 第 2 


个 , 第 3 个 ,……… > 直到 抽 足 % 个 为 止 .上述 两 种 其 序 实际 上 并 无 差别 .所 
者 得 的 % 个 签 上 所 示 的 号 码 即 表示 入 样 的 单元 导 、 


条 2.3 估计 量 及 其 性 质 骂 


例如 对 例 2. 工 的 总 蛋 , 用 抽签 法 抽 一 个 m 一 2 的 简单 随机 祥 本 ， 者 抽 
中 的 签 号 为 3 与 3, 则 了 。 与 了 a 即 为 入 样 单元 。 这 相当 于 表 2.2 中 的 第 
8 个 样本 . 

方法 (随机 数 法 ) 利用 随机 数 表 ， 随 机 数 仍 子 或 计算 机 产生 的 随 
机 数 进 行 抽样 。 若 利用 计算 机 产生 的 随机 数 ， 璧 如 说 执行 BASIO 语言 
的 RAN 语句 即 可 产生 工 ~ 六 范围 (离散 均匀 分 布 ) 随 抽 数 (每 个 数 每 次 
出 现 的 概率 均 为 1/W)， 该 数 即 表示 入 样 的 单元 号 ， 若 发 生 代 表 同 一 单 
元 的 随机 数 出 现 两 次 或 两 次 以 上 , 则 从 第 二 次 开始 就 弃 去 不 用 , 再 抽 下 一 
个 , 直到 抽 足 % 个 不 同 的 单元 为 止 . 

由 于 计算 机 产生 的 随机 数 实 际 上 是 伪 随 机 数 , 不 是 真正 的 随机 数 , 特 
别 是 直接 采用 一 般 现 成 程序 时 , 产生 的 随机 数 往 往 不 能 保证 其 随机 性 . 因 
些 我们 推荐 使 用 随机 数 表 或 用 随机 数 珊 子 产 生 的 随机 数 ， 特 别 是 在 样本 
量 ” 比 较 天 时 ， 利 用 随机 数 表 或 随机 数 艇 子 进行 简单 随和 宙 扯 样 的 具体 步 
又 将 在 $2.6 中 详 述 . 


























$2.2 估计 量 及 其 性 质 


2.2.1 简单 估计 及 其 无 偏 性 
我 们 用 大 写字 母 与 小 写字 母 分 别 表示 有 关 总 体 与 样本 的 量 ， 例 如 总 
体 关 于 变量 多 的 好 个 值 记 为 了 4, Ys，…, 了 wy, 而 
7->Y, 





分 别 痢 示 总 体 总 和 及 总 体 均 值 ， 设 二 工 。， …, 了 是 从 总 体 中 抽取 的 
一 个 样本 量 为 % 的 简单 跑 宙 样本 , 其 中 (il，ia，…， 各 ) 是 (1 2,…, 对 ) 的 
一 个 于 集 ， 根 据 前 而 的 约定 ， 也 为 了 简化 足 标 起 见 ， 将 该 冬 本 重新 记 为 
;于 是 
Cp 人 .了 

即 是 样本 平均 数 焉 称 料 本 均值 . 

允 简 单 随 机 扫 样 ,在 没有 对 总 体 入 息 可 以 利 订 的 情况 下 ， 对 到 与 了 
萄 合计 分 别 取 为 
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?3= 填写 y。 C2. 
PD- N53 (2.3) 
Rl 


这 种 估计 称 为 简单 线性 估计 (simple linear estimate)， 篇 称 为 简单 估 
计 . 

为 讨论 简单 生计 的 性 质 , 首先 证 明 以 下 两 个 引 理 。 

引 理 2.1 从 火 小 为 Y 的 总 条 中 抽 下 一 个 样本 景 为 "的 简单 随机 
样本 ， 则 总 体 中 每 个 特定 单元 入 样 的 概率 为 w/W， 两 个 特定 单元 都 入 

n(n—1) 

全 为 着 CT 

证 明 ”在 全 部 可 能 的 【 | 个 样本 中 ， 包 售 某 个 特定 单元 的 科 本 


数 为 ( 个， 同时 包 全 丙 个 特定 单元 了、 了 的 桩 本数 为 ( ”2 ) 


个 ,而 每 个 祥 本 被 抽 到 的 概率 部 为 1 (小 因而 每 个 单元 入 样 的 概率 为 


N—1 Nn 
(Ms 广 各 
两 个 不 同 单元 同时 入 样 的 概率 为 
N—2 EA Nn 一 1 
Cn )A)- 于 ” 
mA 称 为 抽样 比 {eampling fraction), 记 为 下， 
引 理 2.2 从 大 办 为 好 的 总 体 中 抽取 一 个 样本 量 为 上 的 简单 随机 
样本 ,对 总 体 中 的 每 个 单元 了 ,, 引进 随机 变量 m 如 下 : 


I， 著 工 , 入 样 ; 
一 2.4 
® {a 车 了 ,不 入 样 “ (=1, 23, …, NN)。 .9 





则 
Bf (1, 2, N), (2.5) 
V0 但 "全 fH Gl 2, ND) (2.6) 

/4 GD 





Cov(%, qa) — WN- nt - 惫 )- 
(B=1, 3 2 站- 
证 明 品 然 , 每 个 q 部 服从 二 点 为 布 ,根据 避 理 3. 有 
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了 Co 一 每 - 户 了 oa0- -如 条 区 Gz. 
因而 Vla) = —)), 
Covfer @) = E(w) — Em) Ee) = — 
定理 2.1 对 简单 随机 抽样 ， 作 为 了 了 及 了 的 简单 估计 5 及 依 ~N3 
都 是 无 偏 的 , 即 


了 0 一 及 
Vi “ 


By)=Y, C2.8) 
BEB(NY—Y. (2.9) 
我 们 只 需 证 明 其 中 一 个 结论 , 例如 (2.8) 式 即 可 。 下面 我 们 给 出 三 种 
证 明 , 每 种 证 明 的 思想 和 方法 都 是 具有 启发 意义 的 。 
证 明 1 根据 有 有限 总 体 数 学 期 望 的 合 义 ,有 


EQ)-D 
(2) 


这 里 求 和 是 对 全 部 可 能 的 ( ) 人 不同 的 人 得 衬 本 来 的 ,5 是 得 个 本 

的 均 信 , 而 每 个 祥 本 被 抽 中 的 概率 者 为 LA 注意 到 对 特定 的 总 体 单 
NW 

元 Y。 出 现在 不 同样 本 申 的 次 数 为 ( 7) 因此 

y= Ett :十 加 ?一 其 


名 
一 x 如 二 
于 是 了 机 ~ (A 了 )- 才 训 Y- 
证 明 2 由于 总 体 中 每 小 单元 7 出 现在 全 部 可 能 的 届 单 随机 样本 
的 次 数 都 相等 ， 因 此 互 [高 纠 作 为 对 所 有 可 能 样本 求 平 均 ， 它 必定 是 
高 天 的 信 数 ， 根 据 束 和 中 的 单元 个 数 计算 , 这 个 储 数 从 为 攻 , 因而 


| 





I 


上 述 和 证 明 方 法 称 为 “对 称 性 论证 (argurnent of gymmetry), 这 种 方 
法 对 证 明 简 单 随机 抽样 的 有 关 性 质 是 十 分 方便 的 . 
证 明 83) 《Oornfield) 引进 随机 变 基 
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， 医 P 入 样 
< 人 六 G1 2, 0, N), 


则 隐 可 表 沁 为 
其 中 六 (6 一 1 2,…，) 痢 是 常数 , 族 
了 的 -二 识 了 Co -去 呈 以 了 一 下 
对 于 例 3. 世 表 2.2 中 给 出 了 全 部 28 个 可 能 的 简单 随机 样本 的 平均 
数 多 读者 不 难 验 明 这 28 个 平均 数 的 平均 数 等 于 总 体 均值 (地 ), 说 明了 
是 学 仿 的 . 





2.2.2 估计 量 的 方差 与 协 方差 

一 、 多 的 方差 V5) 

为 表达 9 的 方差 , 我 们 先 定义 总 体 的 方差 ， 边 一 般 定 义 ,有限 总 体 的 
方差 为 


co 到 襄 Gr,-P” 《2.10) 
但 为 了 在 大 多 数 情形 使 公式 的 表达 更 为 简练, 在 本 书 中 我 们 用 
Ee (2.11) 

















来 表示 总 体 方 差 . 这 种 表示 方式 在 用 方差 分 析 法 处 理 轩 尤为 方便 . 
定理 &.2 对 简单 随 宙 抽样 ,3 的 方差 为 
VO)= S ep (2.12) 
证 明 也 (对 称 狂 论 证 法 ) 
VOD- HG-P)— BIn(y-F)]? 
-十 [区] 
一 去 {[ 礼 ( —P)*]+2n 说 (y—F) -7)]}. 
根据 对 称 性 论证 法 , 我 们 有 
媚 [ 高 (一 了 )?]- 邓 训 (7 .Py 


fi 
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访 @- 7 0Y), 





OEE 
1 -1 \&, Ta nl fy Fl 
WG 
证 究 Cr 一 F2 一 总 人 一 万 . 
证 明 和 《Gornfeld 法 ) 仍 引进 随机 变量 
-位 车 了, 入 样 
“Lo， 耕 则 
于 是 根据 引 理 2.2, 有 
四 
LAD hd 
1 2 
-证 启 30+2 记 FEPioovo on)] 


并 一 N 1 /中 2 
[wr 总站 -也 售 世 ) 
工 一 Ly vs 人 
| 
推论 ”对 于 简单 随机 抽样 ,他 一 人 的 方才 为 
FO)- 革 WN- n= Ep). (2.19) 


定理 2.2 中 的 














=1, 2,%, N). 





1-/- 2 (2.14) 


称 为 有 限 总 体 校 正 系数 (finite populatiom correction, 简 记 为 了 PO), 这 
是 因为 对 无 眼 总 体 中 的 抽样 ,了 (四 应 等 于 02/nY83/K 参 见 $2.5 中 对 放 
站 简单 随机 抽样 的 讨论 ), 因此 从 有 限 总 笨 中 抽 得 的 简单 随机 样本 均值 的 
方差 要 比 从 无 限 总 体 中 独立 样本 均值 的 方差 小 , 两 者 相差 1 一 f 这样 一 个 
因子 . 当 抽 样 比 了 很 小 时 (例如 了 <<0.05), 因子 1 一 了 可 以 忽略 不 计 ， 定 
理 2.2 告诉 我 们 , 影响 4 精度 的 主要 是 样本 量 m 的 大 小 ,而 不 是 抽样 比 记 
这 一 点 对 初学 者 尤其 要 引起 注意 . 

二 、 两 个 估计 量 也 元 的 协 方差 

藻 总 体 中 的 每 个 单元 都 有 有 两 个 指标 了 , 与 孚 ,, 记 乡 xz 为 相应 的 样本 
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欧 什 ,了 与 及 分 别 为 总 体 均 值 , 则 可 定义 与 2 的 协 方 差 如 下 ; 





Cov(3, D 一 BB-Y) (5 一 里). (2.35) 
定理 8.3 对 简单 随机 抽样 , 有 
Cov(B, WD =— HEL So (2.16) 
其 中 
Bw -FY) (ZX,—) (2.17) 
是 总 钵 协 方差 . 


证 明 1) 用 对 称 论 证 法 
Cov (gy, 二 一 吾 [( 一 了 ) (5 一 到 说 


一 史 )][ 宝 心 - 到 ] 
一 证 古 | 帘 -了 )(m- 尺 )+ 高 名- 了 ) (wy 下 )] 
一 十 [各 襄 @w- 了 ) (a 一 芋 ) 


nn—1) 3 元 、 
二- 计 攻 高 二 ¥y (mT) | 





=-[ 忘 - a Y) (er) 


+ 5 惧 宫 一 到 一 到 


fl 





De 


+ 了] 访 - 邓 )] 
-= Sus 
证 明 8) 令 ww 一 名 十 oo 记 亚 . 辽 分 别 为 样本 均值 与 总 体 均 值 , 则 坪 = 
B+%, = 了 + 主 . 

V[(9—F)+z— -Vy PF)+F(z— Ty 

十 2 Qov[(y—Y), (z— 脏 )] 
=VO+V + Oov(Y, F). 

Gor, 5)= 计 [VF 0) -VD) -7 @)] 
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于 (6 
-二 
nn 一 =1 








也 方 一 工 
一 匀 人 一 已: 一 训 Co 一 束 )?] 
罕 说 
1.1—f. 2 Ep 
一 二- 了) (m) 
| 


2.3.3 方差 与 协 方差 的 估计 

在 实际 问题 中 , 总 体 的 方差 与 协 方差 都 是 未 知 的 , 因此 为 了 得 到 估计 
量 方差 或 协 方差 的 估计 , 必须 对 总 体 的 方差 与 协 方差 进行 估计 . 

定理 .和 4 简单 随机 样本 的 方差 





sD (2.18) 
是 总 株 方差 8? 的 无 偏 合计 . 
证 明 s? 可 改写 成 
$=——L SI 7)— (7)]? 





如 一 生 
一 二 [ 访 @-Y> —n(y—P)? ] . 
根据 对 称 性 论证 及 定理 2.2, 有 
吾 [ 澡 (ww- 避 相 = 各 高 (一) 2 


N—n 
如 


所 以 BO DN 


作为 例子 , 对 例 2.1, 总 体 方差 2 一 中 一 5.1429, 而 表 2.2 中 全 部 可 


能 样本 方差 的 平均 数 如 (8s”) = 144/28 一 5.1429。. 两 者 相等 . 
推论 ”对 于 篇 单 随机 抽 祥 


oD eS- EA) (2.19) 


EInCy—P)]—ny (9y)— S3. 
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(本 -人 一作 (2.20) 


务 别 是 卫 (3) 与 六 ( 信 ) 的 无 偏 估计 
在 获得 估计 景 方差 估计 后 ， 即 可 根据 1.2.5 段 中 的 方法 来 构造 总 体 
参数 的 (近似 ) 园 售 区 闸 . 例如 对 总 体 平均 数 了 ,一 个 置信 水 平 光 一 «的 
近世 置信 区 问 为 
B-wy s, 3+ yf EL 中 (2.21) 


网 28.2 某 市 区 共有 4828 户 . 为 调查 该 区 居民 的 收入 情况 , 用 简单 



































跑 机 扼 样 方法 从 中 抽取 30 户 , 登记 了 每 户 的 月 收入 %, 具体 数据 如 表 2.3 
所 示 . 试 估计 该 区 居民 的 平均 月 收入 王 , 并 求 它 的 置信 水 平 为 985% 的 近 
亿 置 售 区 问 . 
表 3.83 30 户 居民 的 月 收入 调查 
库 号 # 月 必 入 xf) | 序号 月 收入 妇 ( 元 ) 
1 670 15 T7168 
2 760 17 356 
E33 S510 18 98o4 
4 656 19 928 
5 764 20 664 
6 A494 21 930 
7 T7234 22 了 6 
8 B40 28 了 34 
9 580 24 604 
I0 574 25 S554 
11 768 26 556 
12 690 27 684 
13 880 23 7 了 60 
34 580 29 496 
15 | 650 | 30 920 
这 里 站 一 414328, n= 30. 
根 座 交 2.3, 计算 得 
9— $1y,— x20886= 696.20 
站 交 训 六 了 
as- 1 站 os 1 
人 一 曾 [ 洋 六] 


一 却 596994.8 一 18517.06. 


$ 3.3 合计 最 及 其 性 所 as 
30 
* 纺 = 贡 x [1 一 各 让 | *18517-06 一 613.96， 


s( 引 ) 一 wo(8) 一 24.76. 
凡 而 该 区 居民 户 平均 月 收入 了 的 估计 为 696.20 元 , 而 它 的 95% 的 近似 
置信 区 间 为 ， 











696.20+1.96x24.76 
即 (647.6? 元 , 944.73 元 》. 
与 定理 2.4 类 似 , 在 有 两 个 指标 的 情形 , 我 们 有 以 下 定理 
定理 多 .5 生意 本 机 样本 的 协 方 六 


(wD) wD) (2.22) 


一 二 El 
是 总 体 由 方 差 Svs 的 无 偏 信 计 . 

证 明 留 给 读者 作 练 可 .根据 定理 23.5, 可 以 构造 Qov《y, x) 的 无 偏 估 
计 . 





Sye 一 


2.2.4 ”简单 估计 的 优良 性 及 可 以 进一步 改进 的 途径 


简单 (线性 ) 居 计 不 仅 有 简洁 的 形式 ,而且 也 具有 茶 些 优 良性 质 . 

Neyman 与 Dayidti938) 证 明了 若 将 所， so， …, 甸 视 为 %% 个 随机 变 
量 , 具有 公共 均值 了 及 相同 方差 与 协 方差 ， 则 简单 估计 Y 是 一 致 最 小 方 
差 的 线性 无 偏 舍 计 ”这 是 Markoff 定理 的 一 种 特殊 人 情形， 


Horvitz 与 Thompson(1952) 证 明了 在 形 如 人 多 一 党 wy, 的 线性 信 
计 类 里 , 若 要 求 对 所 有 的 w; 都 相等 ， 那么 以 一 各 一 六 是 估 为 无 篇 的 充分 


必要 条 件 。 这 表明 ， 此 时 是 唯一 满足 条 件 的 无 偏 和 估计， 如果 权 wp; 具 
取决 子 入 样 的 磺 序 8， 记 第 4d 次 入 样 的 样本 单元 为 gw， 则 3 在 形 邵 


高 wegrw 的 线性 估计 类 中 方差 最 不 . 
车 笋 的 权 不 仅 依赖 于 而 且 也 与 衬 本 中 的 其 他 单元 有 关 , 记 为 wu， 
则 Godambe(1955) 证 明了 对 于 所 有 总 体 在 形 如 总 wg 的 合计 类 中 不 存 


在 最 小 方差 的 无 偏 估 计 .， 对 于 茶 些 总 体 ， 选 联 一 定 的 w, 就 有 可 能 构造 
出 比 简单 估计 方差 更 小 的 人 证 量 . 

事实 上 , 如 果 我 们 对 总 体 的 特性 有 一 定 了 解 , 即使 在 简单 随机 抽样 范 
转 内 ， 也 常 可 找到 优 于 简单 估计 的 其 他 估计 形式 , 看 下 面 的 例子 ， 
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例 2.8 车 在 总 体 中 , 已 知 某 个 单元 , 设 为 了 1, 很 小 ; 而 另 - 一 个 单元 ， 


设 为 了 Px, 很 大 , 则 Sirndal 提出 对 了 的 如 下 估计 量 : 
[3+6， 闭 样 本 中 包 会 了 :而 不 包含 了 
? -| 车 样本 中 包含 Ys 而 不 包含 了 3 
对。 其 他 情形 。 
其 中 是 常数 , 则 会 , 是 无 偏 的 , 且 


VP) 0-7 [EY Yn)], 





因而 当 。 满足 
1 
9<o< 元 (了 一 了 2) 
夺 , 六 (全 一 六 (及 。 
为 证 明 ,的 无 偏 性 , 我 们 引进 随机 变量 a 


位 车 了 了 ,入 样 


j=1 a 
0 大 和 G1, 2, 1 WY. 


由 去。 可 表 成 
[aTY rn ror Yno)+ a ]. 
由 于 如 Ko) 一 个 G2,…, 训 ), 敬 
EP) -Ernet ry nt FY, ) 
1 如 
-万 六 YY 
为 证 朋 (2.24) 式 , 我 们 先 给 出 总 体 方差 ge 的 一 种 表达 式 : 
Bo 一 Fe Py 











1 

7 es 
到 [sr:-#( 训 7)] 

,一 I[ 宫 7- 专人 宰 瑟 + 高 rz 


-3 Yi FR 六 Ys. 








(2.28) 


(2.24) 


(2.25} 


(2.26) 


对 (2,25) 式 求 方差 , 利用 wm 的 方差 与 协 方 差 的 表达 式 ((2.6) 与 (2.7》 


音 2-2 估计 量 及 其 性 质 5 
式 ), 有 
RE 宫 于 ] 


~ —f) [Futno) Ys— nc) 十 号 YF, 


g 
tm 各 了 -me 车 亡 rr,]} 


Cer 


-~ -用 [去 训 Y- a -YY:] 


-dD [人 (Ys -Yne) 


2 
+ 


-4 一 


下 面 我 们 用 一 个 简单 实验 例子 来 进一步 说 明 问题 . 设 丈 =8 的 一 个 
意 体 , 其 单元 数值 为 





-Yno)]. 


1, 4, 5, 5, 6, 6, 8, 13. 
从 中 抽取 mn 二 4 的 简单 随机 样本 ， 则 不 难 验 明 VCP-1.5, 而 当 0<c<8 
时 就 及 (了,)<V(9). 例如 当 oi 或 2 时 , (了 -0.357, 当 e=-1.5 
肘 , 玉 (了 ,) 达 到 最 小 值 0.214， 

对 这 个 特殊 例子 还 可 以 考 虚 男 一 种 不 同 于 简单 随机 抽样 的 抽 桩 方 
法 : 每 一 个 样本 均 包 含 了 :一 与 了 s 一 18, 同时 在 另外 6 个 单元 中 按 简单 
随机 抽样 抽取 一 个 w 一 2 的 样本 , 记 这 个 样本 的 平均 数 为 如, 考虑 估计 量 


DF Tete], 





则 3; 也 是 六 的 无 偏 信 计量 ,而 且 玉 (9) 一 0.350 也 小 于 了 (9). 

这 个 便 子 说 通 了 为 提高 简单 随 宙 抽样 简单 估计 糖度 的 黄种 途径 ， 一 
是 改变 抽样 方法 , 上 面 所 到 的 名: 即 是 一 种 特殊 分 层 抽 样 的 简单 估计 .在 
下 一 章 中 将 详细 讨论 分 层 抽 样 ， 第 二 种 途径 是 对 简单 随机 样本 利用 总 体 
的 一 定 信息 采用 有 别 于 简单 估计 的 另外 估计 方法 , 正如 他。。 当 总 体 中 每 
企 单 无 还 有 辅助 变量 可 以 利用 时 , 还 可 采用 糖度 更 高 前 比 估 计 、 回 归 信 计 
等 。 这 将 在 第 4 章 中 详细 讨论 ， 


36 第 3 章 简单 随机 抽样 


§2.3 总 体 比例 的 估计 与 对 子 总 体 的 估计 


2.83.1 总 体 比 例 ( 百 分 率 ) 的 估计 
设 总 体 中 的 个 单元 按 某 种 特征 分 成 两 类 , 一 类 具有 这 种 特征 ， 另 
一 类 不 具有 这 种 特征 ， 我 们 的 目的 是 居 计 总 体 中 具有 这 种 特征 的 单元 在 
金 体 单元 中 所 占 的 比例 卫 或 总 体 中 上 其 有 这 种 特征 的 单元 总 数 和 4、 例 如 
男性 的 比例 、 赃 结核 病人 数 的 比例 .选民 在 一 次 选举 中 的 投票 率 等 等 . 
车 对 每 个 单元 , 定义 指标 值 
i， 车 第 宇 个 单元 具有 所 考虑 的 特征 5 
7-| (一 二 2, …, N) (2.27) 
0， 特 则 . 
则 有 
4 名 YY P- 若 -了 . (2.28} 
因而 对 总 体 比 例 的 估计 即 丁 化成 上 节 讨 论 的 一 般 情 形 妈 总体 均 值 的 估 
计 . 
定理 2.6 若 4 是 样本 量 为 “的 简单 随机 样本 中 具有 所 考 虚 特 征 的 
单元 数 , 则 样本 比例 





了 Pp 一 到 (2.29) 


是 总 体 比例 了 一 入 的 无 偏 信 计 , 且 
Nn 


Vp) -£8 “FT (2.80) 
其 中 QQ 和 一 P= VN—4 
> 1 HW 





证 明 ”引进 了 了 :如 前 , 则 Zp 一 ,根据 定理 2.1， 邑 有 五 (p) 一 P， 另 一 
方面 , 此 时 总 体 方 差 为 : 
-TT7 














入 一 二 
=— 1 一 并 
HT (VP-NP)- Ho Pll-P) 
-HI Pe (2.81) 


将 上 式 代入 定理 2.2 中 的 (2.13) 式 即 得 (2.30) 式 .是 


多 -3 总体 比 例 的 估计 与 对 子 总 体 的 估计 Ed 


推论 有 =Np 是 4 的 无 信 舍 计 ， 且 


-PQ. 
入， (2.89) 











定理 8.? 对 简单 随机 扫 样 
vp) S83 Hy pa pa (2.33) 


十 六 (p) 的 一 个 无 偏 佑 计 , 其 中 g= 1 一 Pp. 
证 明 由 (2.27) 式 不 难 验证 , 此 时 样本 方差 为 


sa 一 ~ pg, (2.34) 
从 而 由 定理 3.4 的 推论 即 得 证 .对 
(2.38) 式 表明 ; 当 1 一 f 必 1 时 , 于 于 是 玉 (P) 的 无 偏 舍 计 , 丽 42 则 














是 有 偏 的 . 
推论 T( 才 ) 的 一 个 无 入 估计 是 
oA)= NT py. (2.35) 


有 了 Yw(o) 或 (人 ), 即 可 构造 王 或 生 的 置信 区 间 , 沽 见 很 大 时 , 可 以 
用 前 述 通用 的 近似 方法 . 也 即 忆 的 置信 庶 为 1 一 % 的 近似 置信 区 间 为 
[eV EH. ean 
由 于 工 xs 的 覆 值 仅 是 0 和 1 工 两 个 值 , 因此 sa(p) 的 实际 分 布 ( 当 六 
很 大 时 ) 为 二 项 分 布 , 是 离散 的 ， 当 "不 是 很 大 时 , 应 考 嘻 作 连 续 性 修正 . 
此 时 卫 的 置信 区 间 可 修正 为 ; 


-(eVEEZ 二) reVE + 


而 4 的 轰 信 限 可 用 局 样 情 况 下 三 的 置信 限 乘 以 巡 而 得 到 . 
例 &.& 某 大 学 有 学 生 5620 人 .为 了 解 现任 学 生 会 主席 在 换届 选 
举 中 连任 的 可 能 性 , 在 学 生 中 用 简单 随机 抽样 润 查 了 300 名 学 生 , 其 中 有 
187 人 支持 主席 连任 。 试 估计 该 校 学 生 支 持 主席 连任 的 比例 及 总 人 数 - 
解 这 里 站 = 5620, n 一 300, 1 一 f 一 0. 9466, 
ao—187, p= 各 -0.6293, g—0.3767, 


A Np= 3502.9~3503, 








(2.37》 
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wp) as?— 534 pg—7.4334 x 10-4, 
ss —0.02726, 
sys—153.222158. 

于 是 卫 与 4 的 0% 的 置信 限 及 置信 区 闻 (w.210 二 1.64) 分 别 为 

P, 0.6283 荆 1.64x0.03736 即 (0.5786, 0.6680); 

4 3508+4+1.64x158 即 (8252, 3754). 

著 考虑 连续 性 修正 , 即 用 (2.37) 式 , 相应 的 置信 区 间 为 : 

P, (.B769, 0.6697)， A, (3242, 3764). 





2.3.2 子 总 体 的 估计 

有 时 总 本章 元 可 以 按 一 种 或 几 种 可 辨 列 的 特征 划分 成 车 干 个 子 总 体 
(subpepulations) ， 例 如 在 调查 对 象 为 人 时 , 按 性 别 或 年 龄 段 划分 ; 在 调 
查 对 象 为 企业 时 ， 护 规模 大 小 或 所 有 制 仁 质 划分 ， 我 们 关心 前 是 对 这 些 
子 总 体 参数 的 估计 ， 在 有 些 文 献上 ， 便 如 联合 国 统计 分 委员 会 将 这 种 感 
兴趣 的 子 总 体 称 为 研究 域 (domains of study)， 在 对 子 总 体 ( 研 究 域 ) 进 
行 佑 计时， 每 个 子 总 体 的 大 小 不 一 定 是 已 知 的 。 因 此 对 单元 的 划分 通常 
只 能 在 样本 中 进行 . 

令 床 ;是 第 j 了 个子 总 性 的 大 小 ( 设 它 未 知 )、 从 总 条 中 抽取 一 个 样本 
量 为 和 的 简单 随机 样本 ， 样 本 中 属于 第 j 个 子 总 体 的 单元 数 为 %， 则 这 
ms 个 单元 可 看 成 是 从 大 小 为 好; 的 { 子 ) 总 体 中 抽取 的 一 个 简单 随机 样本 
与 一 般 情 形 不 同 的 是 , 这 里 的 m 并 不 能 事先 确定 . 

对 第 了 个 于 总体, 记 它 的 第 4 个 单元 的 指标 值 为 工 纪 , 样本 中 前 指标 
什 为 %p, 根据 定理 2.1, 5 一 基 - 入 yi? 是 于 总体 均 值 了 0 一 总/ 

安 | 
的 无 偏 舍 十 。 而 它 的 方差 为 
的 3 ny AN 3 
-有 D 守 =-Q@- 蕴 ) 太 i 
其中 子 总 体 方 莽 8 可 用 样本 方差 二 了 了 澡 (949 一 34》* 信 计 ， 为 估计 
md;, 注意 到 车 将 属于 第 7 个子 总 体 看 作 是 总 体 单元 的 一 个 特征 ， 则 比 
例 Wj/ 可 用 相应 的 样本 比例 njm 个 诗 , 即 
(各 )= 絮 . (3.38》 


% 



































8.3 总体 比 例 的 估计 与 对 子 意 位 的 估计 和 8 
了 THs 虽 未 知 , 但 是 一 个 常数 , 故 上 式 可 改写 为 


已 ( 全 )- 租 ， EA (2.89) 
ny 


而 可 用 f= 车 来 信 计 一 戎 于 是 亚 (g 扩 可 用 下 式 估计 : 
一 工 -了 了. 
13 


























oD — ya. (2.40》 
下 国 我们 诗 论 另 一 入 入 的 关于 扩 体 的 售 计 同 是 即 估计 子 总 体 
某 个 指标 及 的 总 和 ， 这 个 问题 可 以 化 为 2.3.1 段 中 的 问题 进行 处 理 .此 
时 所 考虑 的 子 总 体 的 大 小 mr 即 是 2.3.1 段 中 的 和 4. 
对 总 体 中 的 每 个 单元 , 定义 指标 值 多 如 下 : 
天 2 营 第 5 个 部 于 所 省 记 拘 对 总 体 。 Co.41) 
0， 否则. 
于 是 了 -总 了 = 总 名- 
即 是 我 们 需要 估计 的 参数 ， 
设 对 总 体 抽取 的 简单 随机 祥 本 中 属于 该 子 总 体 的 单元 数 为 4( 邢 2;)， 
































血 (2.42) 
PE gi-p. (2.43) 
则 
LA 
0 
2 工 /eye wp 。 
BS- TW?) (说 肥 - 一 到 Ps 2) 
-i [cay] 
Nill 
4 zof A pa 
ET[C4-DS3TN2( 入 - 疡 记 
一 -人 4 一 1 ge Pear (2.45) 
高 一 工 和 六 工 “ “ 


根据 上 述 的 关系 及 记号 , 即 有 以 下 定理 ， 
定理 2.8 对 简单 随机 抽样 


2- 六 名 a (2.46) 
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是 子 总 体 总 和 名 的 无 偏 告 计 , 其 方差 为 
P22 人 + PZ |] 2.) 
宅 区 代 一 门 CPS2 二 PPQZ82)， (2.47') 
且 
v(Z)= 六 (2 一 2)2 十 mp932 *] (2.48》 
是 玉 ( 允 ) 的 元 偏 久 计 .这 里 z 是 属于 子 总 体 的 样本 (i 一 4， 2,…, 4) 的 
均值 . 


侈 2.5 在 一 个 有 33482 户 的 镇 中 抽 一 个 565 户 的 简单 随机 样本 ， 
对 每 一 住户 调查 住房 前 居住 面积 与 住房 性 质 (公房 或 私房 )， 基 本 结果 如 
表 2.4 所 示 . 


表 8.4 革 镇 的 住户 调查 面积 单位 : za? 











住房 性质 。 ”| 样本 中 的 户 装 mo， | 平均 户 居 住 面积 39 | 户 殿 作 而 积 标准 益 si 
公房 386 31.20 | 10.39 
私房 179 24.52 ! .08 
合计 | 565 | 





分 别 估 计 该 镇 居民 住 公房 .私房 的 比例 Pn， 户 数 4 及 该 镇 公 、 敌 
房 移 总 居住 面积 2 外 以 及 从 的 标准 差 ， 
解 ” 对 子 总 体 { 了 D: 公房 住户 的 估计 ; 
pb 一 和 一 386 _0.6882, gu —1—p"— 0.8168, 
= Wpc 一 23483x0.6832- 16043， 
Poo- 殖 号 op- 开 El (831.20 x 386) 
Wh fl 
一 5005286m 
{人 2) 二 2 度 ce —20)2 4 np dg nzY) ] 
N 





RZ = 


& [912+ Pa [zc0]2 
一 23482 x C0. os .38378563) 一 18700.83， 
s(2cp) = 0BD) =117.05(mm2). 
对 子 总 体 (2); 私房 住户 估计 


8 3.4 ， 尝 本 量 的 确定 全 
pO 一 各 一 和 0.3168， gg»=1-p 一 0.6832， 
ae Np®— 2 x0.3168-- 7439， 
2e- 百 号 sp- 卫 N nam 34 x24.52x 179 





NL 
一 1824120 mm?), 
(人 9) 一 re 7 a) npmgn (em) ] 
gy. 全 [9 + Pg" [2 


_ 18 x (0. To .230725) = 6790.57, 
s(B®) = A vBY) 一 33.-04(mz)， 


$2.4 样本 量 的 确定 


2.4.1 确定 ?的 一 般 原则 


在 抽样 调查 中 ， 样 本 量 % 的 确定 是 一 个 十 分 重要 的 问题 。 它 不 仅 与 
调查 的 精 庆 有 关 , 也 直接 与 调查 的 费用 相 联系 . 注意, 这 里 的 费用 含义 是 
广义 的 , 不 反 仅 是 经 费 , 也 包括 涉及 的 人 力 与 时 间 等 ，n 的 确定 取决 于 对 
精度 的 要 求 和 费用 的 限制 . 对 于 简单 随机 抽样 ， 费 用 画 数 甚 为 简单 . 因 
此 在 这 一 节 中 , 我 们 主要 考虑 样本 量 与 糖度 之 问 的 关系 . 
例如 在 例 3.2 居民 收入 调查 中 , w==30, 最 后 得 到 前 户 平均 月 收入 豆 
的 95% 的 署 信 区 间 是 (647.67 元 ,了 744.73 元 )、 这 似乎 不 够 精确 , 因为 置 
信 区 间 长 度 较 大 ， 其 原因 是 估计 量 的 方差 较 天 . 为 了 获得 知 计 的 更 高 精 
度 , 唯一 的 途径 是 加 大 样本 量 . 但 吧 取 和 何 秆 比较 适宜 , 使 它 既 能 满足 估计 
精度 要 求 , 又 不 会 造成 浪费 呢 ? 
对 佑 计量 的 精度 要 求 可 以 以 它 所 允许 的 最 大 方差 六 (或 相应 的 标准 
差 ) 的 形式 提出 来 , 或 更 多 的 以 绝对 误差 限 ( 即 允许 的 最 大 绝对 误差 ) & 或 
衣 对 误差 限 (允许 的 最 大 相对 误差 )r 的 形式 提出 来 . 其 中 心 与 > 都 是 在 
一 定 概 率 意义 下 定义 的 . 在 1.2.5 段 中 ， 我 们 已 建立 了 & 与 估计 量 的 方 
差 ( 或 标准 差 ) 及 7 与 估计 量 的 变异 系数 之 间 的 联系 , 即 
A—ua /VO uO), | 《2.49) 


rw SL -wov(9)， (2.507》 
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出 于 灰 ( 全 (或 8( 的 ) 是 m 的 函数 , 由 此 即 可 很 据 4( 或 ”或 给 定 的 估计 量 
最 大 方差 (或 变异 系数 ) 来 确定 样本 量 m 的 数值 。 
2.4.2 ”总体 参 数 为 了 或 了 的 一 般 情形 
当 上 需要 估计 和 的 总 体 参 数 是 总 性 总 和 了 或 平均 数 了 了 时， 所 用 的 基本 
估计 量 是 样本 平均 数 4. 设 台 是 给 定 置 信 水 平 9 的 绝对 误差 限 , 玉 是 允许 
的 的 最 大 方差 , 则 杠 据 y 的 方差 公式 及 (23.49) 式 , 有 ， 


7 
二 


(CN—nS—nN ， 














(E+) NB, 





得 
Ne (S/d)? 
Tg TT (2.51) 
或 
2 
"TT 人 
车 令 2 2 
m- (2 ) 或 m- 多， (2.58) 
则 
TT C2.54) 


通常 都 是 由 (2.59) 式 计算 nn 的 一 次 近似 值 no, mo 比 实际 项 要 的 % 要 
大 . 着 mo/ 人 可 以 忽略 (例如 ro/ 妇 <<0.05), 则 就 取 no 否则 , 根据 (2.54) 
式 修正 , 得 到 实际 需要 的 m。 

例 2.6 在 例 2.2 中 , 车 要 求 售 计 的 户 平均 收入 的 绝对 误差 在 10 元 
以 内 ( 蛋 信 水 平 为 95 多 )， 叉 总 体 标准 差 8S 估计 为 80 元 ， 则 根据 (2.53) 
式 , 有 





mo (8 二 246， 


由 于 mo/ 困 一 7.4%%, 不 能 乱 略 , 进 订 由 (3.54) 式 , 得 到 
n= 246 
IT+a46/1898 





二 233。 


和 2.4 样本 量 能 确定 43 
这 就 是 说 , 必须 抽取 一 个 祥 认 是 不 小 于 233 的 简单 随机 样本 , 才能 在 
95 多 的 轻信 和 度 下 保证 户 月 平均 收入 的 佑 计 Y 的 绝对 误差 不 会 超过 10 元 、 
如 果 精 度 的 要 求 是 以 相对 误 益 限 7 或 最 天 允许 的 变异 系 效 :O 来 表示 
的 , 则 从 (2.50) 式 出 发 (注意 , 此 时 9 即 为 了 ,而 7 了 相当 于 前 面 的 只, 即 


可 得 


其 中 58/ 了 是 总 体 的 变异 系数 ， 当 na/ 六 不 太 小 时 ， 也 应 对 mo 进行 修正 ， 
公式 也 用 (2.5 和 0 式 . 

注意 , 为 了 确定 样本 量 , 必须 对 总 栖 方差 (标准 差 ) 或 变异 系数 事先 进 
行 估计 (参见 2.4.4 段 前 讨论 ). 


2.4.3 估计 总 体 比 例 书 的 情形 


当 签 估计 的 是 总 体 具有 某 种 特征 单元 的 比例 三 时, 估计 量 是 样本 中 
的 相应 比例 jw. 根据 定理 2.6 及 (2.51) 式 , 著 & 是 置信 水 平 4 一 a 下 的 名 
的 绝对 误差 限 , 则 





























aaa NN PQ 
n= ($) Fr ?0 = Ea (2.56) 
wr HPO Tr map - 
ir( 和 学) + -1) 

若 令 

m- 22 ， (2.57) 
则 
an 

= 一- 一 。 2.58 
i mo 50) 





由 于 已 是 未 知 的 , 必须 事先 予以 估计， 事实 上 , 当 0.8<P<0.7 时 ， PQ@ 
很 接近 于 P=0.5 时 的 最 大 值 0.35.， 在 实际 问题 中 ， 也 往往 以 了 =0.5 
代入 (3.57) 式 计算 no. 
者 对 王 的 相对 误差 提要 求 , 令 "是 相对 误差 限 (此 时 7 也 是 4 一 并 已 
知 计 的 相对 误差 限 )。 由 此 可 求 得 
二 多 


PP 
般 二 一 一 一 一 一 一 《2 .59》 
1 /ua 
(加) 
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于 是 车 对 卫 有 一 个 初步 的 久 计 po 可 先 计算 


一 -ago 2.60 
ro 一 oo (2.60) 


其 中 go 一 1 一 po 车 no/ 不 太 小 , 则 根据 (2.58) 式 修正 , 得 nw， 从 (2.59) 
或 (2.60) 式 可 以 署 到 当 卫 很 小 时 ， 为 了 达到 一 定 的 相对 精度 ， 需 要 很 大 
的 n. 

例 8.9 为 估计 某 号 彩色 电视 机 的 普及 率 P， 用 简单 随机 抽样 进行 
调查 ， 设 多 许 的 三 的 估计 最 大 相对 误差 为 10 移 加 信 水 平 取 为 985 多) . 
问 需 调查 多 少 户 才能 满足 村 求 ? (为 简 音 起见， 假定 每 户 至 多 只 拥有 一 台 
彩电 ,1 一 f ~1。》 

解 ” 这 里 7 一 0.1, a=0.05, wa=1.96. 若 粗略 估计 该 县 彩电 普及 率 
为 25%, 即 po 一 0.25, go 一 0.75， 代 入 公式 (2.60), 有 


(1.96)sx 0.75 _ 
m0 05 82. 


由 于 六 很 大 , 故 就 取 m 一 ma- 


车 实际 调查 结果 为 p=0.327, 则 
__pg 0.827x0.678 
Me 五 5 


sz 一 人 /0 一 0.0188. 
于 是 该 县 彩电 普及 率 卫 的 95% 的 置信 区 癌 为 (30.00 多 ，85.40 色 ) . 

当 卫 很 小 ( 便 如 卫 <0.1)， 即 总 体 中 包 会 所 考 虚 这 种 特征 的 单元 总 
数 很 小 时 , 如 果 叉 没有 较 好 的 办 法 来 获得 关于 P 的 初步 全 计时， 如 何 来 
镶 定 % 呢 2? 

Haldanet1945) 提出 控制 入 计量 变异 系数 的 一 种 特殊 的 逆 抽 样 
《inverse sampling)， 方 法 如 下 ; 事先 确定 一 个 整数 和 (mm >1)， 选 行 逐 
个 抽样 , 直到 朱 到 叫 仿 所 考虑 的 特征 单元 为 止 ， 设 w% 是 实际 的 样本 量 , 则 
可 以 证 明 





=0.0001912, 











p= (2.61) 
是 卫 的 一 个 无 偏 售 计 ,而 尖 访 很 大 ,mm 产 10 时 ,有 
,mp 
rp EE;, (2.62) 
于 是 
Ov PY YT Ym (2.69) 








9 一 工 mi 


$2.4 样本 至此 确定 . 4 
因为 了 很 小 , 故 ~ 四 的 一 个 相当 楼 近 的 上 界 . 


对 给 定 的 对 p 舍 计 的 可 异 系数 信 ， 即 厅 求 m， 实 际 所 需 的 样本 量 是 
随机 的 , 但 一 般 都 相当 大 . 因为 对 Ov (Pp) 的 一 般 值 , 例如 车 要 求 Ov(p) 一 
20%%, 则 mm 这 27, 若 要 求 Cv(p)<10%%, 则 1w 之 1032, 考虑 到 卫 很 小 的 这 个 
事实 ,n 就 相当 可 观 了 . 


2.4.4 总体 方差 的 预先 估计 

前 面 讨论 的 存 调 查 的 设计 阶 刁 确定 样本 > 时， 需要 对 总 体 的 方 凑 
有 5( 或 对 总 体 出 例 卫 ) 进 行 预 估 ， 这 可 以 根据 以 作对 类 似 调查 前 经 验 来 估 
计 , 或 根据 对 总 体 结构 的 了 解 进行 预测 ， 还 有 一 种 常见 的 情形 , 是 若 在 正 
式 调查 之 前 进行 试 调查 , 则 可 以 根据 试 调查 的 结果 来 估计 82( 或 P). 

如 果 调查 的 费用 较为 郧 贵 , 必须 严格 控制 % 也 就 需要 对 S* 或 卫 作 
出 更 可 靠 的 千 计 .此 时 可 采用 Stein(1945) 提 出 的 两 步 抽样 (two_step 
aampiing) 。 在 两 步 抽样 中 , 第 一 步 先 抽 mw 个 单元 用 来 估计 5 或 号 ， 然 
后 确定 n, 第 二 步 再 抽 其 余 的 % 一 ms 个 单元 ， 下 面 介绍 D. 有 .Gox(1953) 
在 Stein 工作 的 基础 上 提出 的 在 给 定 精度 要 求 (7 .9 或 0) 下 确定 前 一 
些 结果 . 

候 定 na 尾 够 大 , 使 再 可 以 忽略 ,mm 又 fpe 也 可 忽略 ， 记 5:， 吕 


或 和 是 根据 第 一 个 样本 计算 得 到 的 估计 量 . 
4) 假定 了 ; 服 从 正 态 分 布 , 在 给 定 信 计 量变 异 系数 腿 O 时 , 估计 子 . 








a 时 (+80"+ 误 + 之) (2.64) 
所 得 的 y 是 有 偏 的 ， 下 时 沿 取 了 一 9 红 一 202) 
2) 给 定 0, 合计 卫 ; 
二 3 1 
[2 Oh! pug 十 [7 (2.65) 
P-p— Op/g. (2.66) 
可 加 
3) 给 定 亚 (于 ) 估计 也 . 
n= 人 训 ). (2.67) 


注意 到 当 号 已 知 时 ,n- 多 ， 故 3+ 过 可 看 作 是 作 两 步 括 样 时 ， 总 
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样本 量化 全 已 知 时 增加 的 倍数 (平均 而 言 ). 
4) 给 定 玉 , 佰 计 PP: 


n= Pi | 3—8pi9: | 1—3p19 (2.68) 
VV Pg Vm “ 
后 丙 项 是 两 步 抽样 应 增加 的 样本 量 ， 此 时 史 也 是 有 偏 的 , 可 取 
五 一 ?十 工 G (2.69) 
了 


$2.5 放 回 简单 随机 抽样 


2.5.1 抽样 方法 及 基本 特征 


前 几 节 讨论 的 简单 随机 指 样 是 不 放 回 抽 样 ， 总 笨 中 的 任 一 单元 不 会 
在 样本 中 重复 出 现 . 但 是 在 某 些 实际 问题 中 , 抽样 不 可 能 做 到 完全 不 放 回 
的 . 因此 在 样本 中 有 可 能 抽 到 重复 的 单元 例如 在 对 交通 车 辆 或 行人 的 
调查 中 , 当 固 定 在 某 个 路 日 抽样 时 就 有 可 能 抽 到 重复 的 车 辆 或 行人 , 又 如 
对 影剧院 观 从 的 调查 以 及 对 啊 生 动物 的 调查 也 有 类 似 的 情形 ， 因 此 有 时 
考虑 放 回 抽样 (sampling with replace ment) 是 必要 的 。 另 一 个 需要 考 
虚 放 民 掀 样 的 原因 是 : 在 放 回 抽样 中 , 由 于 被 抽 到 的 单元 在 下 一 次 抽样 前 
都 放 回 到 总 体 中 ， 因 此 每 次 抽样 时 总 体 的 结构 不 变 ， 因 而 放 回 抽样 中 的 
每 次 抽样 是 相互 独立 的 , 这 一 点 使 它 的 数学 处 理 相对 简单 得 多 . 

在 本 节 中 简单 讨论 等 概率 的 放 回 抽样 .具体 方法 是 每 次 从 总 体 中 随 
本 抽取 (使 总 体 中 每 个 单元 被 狂 中 苗 概 率 都 相等 ) 一 个 单元 ， 经 观测 记录 
其 指标 值 后 , 放 回 总 体 中 去 , 然后 再 在 总 体 中 随 宙 抽取 下 一 个 单元 ， 这 种 
抽样 也 称 为 放 回 简章 随机 抽样 。 为 了 研究 这 种 抽样 的 性 质 ， 先 给 出 以 下 
的 引 理 ; 

引 理 8.8 在 大 小 为 为 的 总 体 中 , 按 放 回 简单 随机 抽样 抽取 祥 本 盟 
鸭 mn 的 一 个 祥 本 ， 用 所 表示 总 体 中 第 5 个 单元 在 样本 中 的 出 现 次 数 (& 二 
0, 1, 2, ,ns =1, 2, ,WVW), 则 


(6)= C1, 3, N), (2.70) 





























VD 一 疗 1 起) G1, 2, .…, N), (2.71) 


Oov(t, 5)= -六 (站. (2.72) 


证 明 ”由 于 每 次 后 样 都 是 随机 抽取 的 ， 即 总 体 中 每 个 单元 被 抽 中 的 


$2.5 放 回 简单 随机 抽样 和 


禄 率 都 为 二、 因此 冯 都 服从 一 项 分 布 号 (mm 喜 ) 从 而 (3.70)、(2.71 式 


成 立 . 
为 推导 喜与 和 (i 让 的 协 方 差 , 我 们 计算 
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2.5.2 总 体 平 多 数 了 估计 量 罗 的 性质 
定理 2.9 ” 放 回 简单 随机 样本 的 平均 数 
5- (2.78) 


n 生 





是 总 体 平均 数 隐 一遍 Y/N 的 无 偏 居 计 , 且 
N18 a (0.74) 
其 中 
.6 
证 明 42) 对 每 次 抽样， 总 体 中 的 任意 一 个 单元 了 , 都 有 TAN 的 概率 
被 抽 到 , 改 对 每 次 抽样 的 结果 %, 有 
Ey) 一 高 去 -~ YY, {2.76) 


VC) - 访 寺 :YP) ~ (=1, 23,., NW). 《2.77) 


48 第 2 章 简单 随机 抽样 
对 不 同 的 %, 9 是 相互 独立 的 , 因此 
瑟 ( 纺 - 二 为 瑟 oo0)- 寺 nP7, 


一 如 一 工 , 8” 
PD- 吉 宫 VD 一 mo 一人 -+ 这 


证 明 2) 记 乌 为 样本 中 总 体 第 6 个 单元 出 现 的 次 数 ， 于 是 了 可 表示 
成 : 

















y= 三 避 = 二 衬 bY (2.78) 
根据 引 再 2.8 并 注意 到 所 有 YY, 是 常数 ， 
五 G)- 革 窜 忆 Bt 一 二 .号 翌 了 了， 
VD- 吉 [ 访 YY (D+2 训 7 Forth, 霹 ] 


1 fn(N-l) ys on 
-让 [2 -各 了 - 瘦 实 得 ba 





二 
下 NN-i 记 了 
| 
1 Pa oo oa? 
i | 
定理 2%.10 对 训 回 简 关 随机 朝 样 ， 样本 方差 


22 一 二 如 (一 2 《人 2.79》 





是 o 的 无 偏 估计 。 
证 明 根据 (2.76) 及 (2.77) 式 以 及 定理 2.9, 我 们 有 


召 [ 襄 (w-5)*]=- 召 | 尚 吕 "| 一 访 了 (VD) 一 m8(3') 
— 宫 {Y @) + [BI nty GG)+ [ED 
—n(ort Po) —n(T +P: )= Do, 
从 而 得 BB [| 
推论 ”对 放 回 简单 随机 抽样 , 普 ( 思 的 一 个 无 偏 估计 是 
208) 一 瑟 . (2.80) 


定理 2.10 与 数理 统计 中 简单 样本 (独立 同 分 布 样本 ) 的 性 质 是 一 致 
的 . 因为 此 时 总 体 按 通常 定义 的 方差 是 o? 而 不 是 B93。 样 本 方差 并 不 
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是 SS? 的 无 偏 恬 计 , 这 是 与 不 放 回 的 简单 随机 抽样 不 同 的 地 方 ， 请 读者 注 
意 . 


2.5.3 设计 效应 (deff) 
从 定理 2.9 可 知 ， 放 回 科 单 随机 抽样 祥 本 均 信 y 的 方差 Verswr 比 


一 般 的 不 放 同 简单 随机 抽样 样本 均值 Y 前 方差 Varswor 要 大 ， 因 为 两 者 
之 比 : 








NWN-i S? 
Vasrewr NWN ‘nm _N-1,, NWN __l1 >1 
Vsreswor Nn.S Nn Non 1-Ff 
Nn 





从 直 况 上 解释 , 这 是 因为 帮 同 抽样 有 可 能 重复 抽 到 闻 一 单元 , 而 同一 
单元 并 不 会 提供 更 多 的 信息 , 因此 放 回 抽样 的 效率 要 比 不 放 回 抽样 的 低 ， 

为 比较 不 同 抽 祥 的 效率 , Kish(1965) 引 进 一 个 称 为 设计 效应 (degign 
effect， 人 向 记 为 de 全 ) 的 其 ， 它 定义 为 某 个 特定 拍 样 设计 估计 量 的 方差 与 
组 同样 本 重 ( 不 放 辐 ) 简 单 随机 抽样 的 信 计 量 方差 之 比 , 即 


dof 所 考虑 拥 样 设计 估计 量 的 方差 
条 辣 祥 末 量 (不 放 回 ) 简单 随机 盾 样 估计 重 殉 方 于 











(2.81) 
车 de 全 <1, 表明 所 考虑 的 抽 祥 的 效率 高 于 简单 随机 抽样 。 反 之 ， 若 
de 人 >t， 则 它 前 效率 低 于 简单 随机 抽样 .对 于 放 回 简单 随 宙 抽样 ， 它 的 


因此 , 如 果 了 不 是 太 小 ， 采 用 放 加 篇 单 随机 抽 祥 是 不 合算 





de 他 一 


的 . 

deff 在 确定 一 个 复杂 抽样 设计 所 需 的 样本 朋 ”时 有 很 大 的 作用 .由 
于 对 一 定 的 精度 要 求 ， 确定 简单 随机 粘 料 所 需 的 桩 本 量 必 比较 容易 
(§ 2.4). 如 时 一 个 复杂 抽样 的 deff 可 以 估计 , 那么 为 达到 相同 的 精度 妥 
求 , 所 需 的 样本 量 应 为 


1 
了 工 一 请 “ 


n= w(tde 和 ffi), "2.823) 


2.5.4 了 的 另 一 种 估计 量 

前 面 提 到 在 放 回 随机 猫 样 中 , 由 于 样本 中 可 能 包含 重复 , 而 重复 单元 
并 不 提供 额外 的 信息 ， 因 此 可 以 将 这 些 重复 单元 去 掉 ， 考 虑 另 一 种 合计 
基 ， 我 们 仍 以 估计 总 体 平均 数 也 为 例 加 以 说 明 . 

















bad 竺 a 章 ”简单 随机 抽样 
设 的 的 …， 狼 是 放 回 简单 随机 样本 中 怠 个 不 同 单元 的 数值 (2< 
m), 注意: 这 里 仅 指 不 同 单元 ， 而 并 不 排除 不 同 单元 有 相同 的 指标 值 的 可 
能 狂 ， 考 虚 估 计量 




















六 一 亏 避 w%， (2.83) 
它 仍 是 了 的 一 个 无 偏 估 计 ， 此 外 可 以 证 明 
v=- [5(3)-B] yr 
. = 人 (二 可) To (2.84) 
这 里 的 近似 只 是 省 略 了 至 (于 ) 展 开 
知 , (3) 一 般 要 小 于 V(3), 即 3 的 精度 高 于 8、 玉 CgY) 的 一 个 估计 是 ， 
v5) 一 (让 - 计 )s% (2.85) 
其 中 
I 当 gQ-1 
| 可 -2 C2700) 


82.6 利用 随机 数 般 子 和 随机 数 表 
进行 随机 抽样 的 方法 


在 2.1-3 妈 中 已 提 到 在 实施 简单 随机 抽样 时 常 采用 随机 数 法 .在 实 
际 手 伴 中 ， 最 好 使 用 随机 数 骨 子 或 现成 的 随机 数 表 ， 本 节 上 具体 介绍 利用 
随机 数 角 子 或 随机 数 表 进 行 随机 抽样 的 方法 ， 这 些 方法 不 仅 适 用 于 通常 
的 (不 放 回 ) 简 单 随机 抽样 , 放 回 简单 随机 抽样 ， 也 是 其 他 随机 抽样 (概率 
抽样 ) 的 基础 .例如 第 5 章 中 的 各 种 不 等 释 率 抽样 在 实施 时 也 要 采用 这 
里 介绍 的 基本 方法 . 


2.6.1 随机 数 仍 子 及 其 使 用 方法 


殖 机 数 骨 子 是 由 均匀 村 料 制 成 的 正二 十 面体 (通常 的 仍 子 是 正六 而 
栖 , 即 正方 体 ), 面 上 刻 有 0~9 的 数字 各 2 个 ， 图 2.1 是 随机 数 般 子 的 底 
视图 与 销 神 图 ， 每 售 般 子 由 合体 、 盒 盖 、 泡 沫 塑料 热 及 若干 个 (通常 是 
8~6 个 ) 不 同 颜色 的 骨 子 组 成 . 便 用 随 袖 数 般 子 时 可 以 像 普 通 般 闻 那 样 























名 2.6 ”利用 随机 数 般 子 和 随机 数 表 进行 随机 机 祥 的 方法 下 


庶 珊 图 俯视 图 


图 3.1 类 宙 数 骨 子 
用 迫 的 方法 , 但 正规 的 方法 是 将 一 个 或 几 个 屈 子 放 在 盒 中 , 拿 去 泡 泊 塑料 
垫 , 水 平地 播 动 盒子 , 使 股子 充分 旋转 , 最 后 打开 您 子 , 读 出 仍 子 表示 的 数 
字 ， 一 个 锅子 一 次 产生 一 个 0~9 的 随机 数 。 要 产生 一 个 m% 位 数字 的 随 
机 数 , 就 需要 同时 使 用 % 个 角 子 ( 认 先 规定 好 每 种 颜色 所 代表 的 位 数 ， 例 
如 红色 表示 百 位 燥 , 蓝 色 表示 十 位 数 , 黄色 表示 个 位 数 等 ) 或 将 一 个 典 子 
使 用 zw 次 (规定 第 一 次 产生 的 数字 为 最 高 位 数字 , 最 后 一 次 产生 的 数字 为 
最 末 位 即 个 位 数 等 )， 特 别 规 定 思 全 骸 子 的 数字 (或 一 个 蜗 了 加 次 产生 的 
数字 ) 都 为 @ 时 , 表示 10”.。 

当 使 用 随机 数 骨 子 进行 抽样 时 ， 特 别 是 如 何 根据 播 随机 数 骨 子 方法 
获得 的 随机 数 Bo 来 读 取 所 要 求 的 随机 数 召 有 多 种 方法 ， 下 面 是 我 国 
家 标准 GBl011L< 利 用 随机 数 仍 子 进行 随机 抽样 的 方法 > 中 规定 的 适用 于 
简单 随机 抽样 的 讯 取 戎 机 数 的 方法 . 

在 每 种 方法 中 , 首先 要 确定 使 用 的 裔 子 个 数 (或 一 个 散 子 重复 摇动 的 
次 数 )w， mm 取决 总 体 太 小 入, 旦 有 如 下 关系 ; 

0 一 <10m。 
记 m% 个 避 子 表示 的 随机 数 为 Bo, 则 读 取 的 随机 数 ， 也 凤 麦 示 简 单 随机 样 
本 中 抽 到 的 总 枉 单元 号 及 可 用 以 下 三 种 方法 : 
方法 一 “” 若 发 子 表示 的 Ro<W, 则 到 Ro 车 如 >W, 则 舍弃 不 用 ， 
另行 重播 . 重复 上 述 过 程 , 直到 取得 % 个 不 同 的 随 宙 数 为 止 . 

例 交 一 735. oz 一 39、 洲 Bo 一 7725， 3384，839， 则 保留 前 2 个 ， 后 一 
个 舍弃 , 重播 . 

方法 二 ”和 如果 山 于 表示 的 < 入 ， 则 取 如 = Ro， 如 果 Bo 入， 说 
KINTR (OE BRN) (RL+1N>10" 时 , 会 弃 , 重播 而 当 
Li+12N<10"7 时 , 取 及 ~ 吾 :或 吾 一 站 (车 BL- 0)， 重复 上 述 过 程 , 直 
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到 获得 ”个 不 同 的 随机 数 为 止 。 
例 N=350, m 一 8. 
车 Bo= 3411 则 到 五 一 忆 o. 
若 B= 462 一 1x350+120, EJ 一 14, 已 :一 102， 且 ( 开 : 十 1) 刀 一 
3x350 一 900 一 10s, 于 是 取 性 一 互 :一 103. 
车 Bo=810=3x850+110, 有 12， 由 于 (EK1t+1)N-3x350 
一 1050>10s 故 舍弃 , 重 扬 . 
方法 三 ” 若 俩 子 表 示 的 随机 数 Bo 所 六 , 则 取 忆 = Bo 车 Bo 入 , 则 取 
一 个 大 于 六 的 适当 整数 用 (一 般 为 方便 起 见 取 寻 =2xX10"m!',，2.5x 
10m1,，8xX10"-! 路 5x10"-! 等 )、 设 Bo 一 玉 s2 有 十 Ra( 民 s 为 整数 ，0< 
Rs 志和), 则 当 ( 玉 a 二 1) 了 之 10" 时 , 舍弃， 重播 ， 当 ( 瑟 s-HIT)M< IO 时 ， 
至 一 至 。 或 总 一 六 (车 Ra-0)、 重 复 上 述 过 程 ， 直 到 获得 mw 个 不 辐 的 随机 
数 为 止 . 
例 本 一 4562, mm 一 4, 取 政 一 5000. 
若 马 = 3150, 取 R= Ro. 
车 Bo 一 6897 一 1 x 5000 二 1897， 豆 * 一 1 (Ks+1)M= 104, R= 
4897, 攻取 BR- Rs 1897. 
第 二 种 方法 与 第 三 种 方法 都 是 为 了 提高 效率 ， 减 少 合 痉 重 握 次 数 所 
采取 的 措施 , 尤其 是 对 方法 三 , 在 适当 选用 陡 时, 既 方 便 又 快速 . 
上 述 方法 也 适用 于 放 回 篇 单 随机 抽样 ， 此 时 五 的 读 取 方法 也 可 用 
上 述 三 种 方法 的 任何 一 种 ， 记 不 同 的 是 ， 此 时 连续 获得 的 有 % 个 随机 数 瑟 
即 是 抽 中 的 样本 单元 号 码 , 而 不 必 计 较 它们 是 否 重 复 ， 


2.6.2 随机 数 表 的 使 用 方法 


随机 数 表 是 将 0 到 9 的 数字 随机 排列 而 成 的 。 表 的 产生 也 有 多 种 方 
法 , 例如 反复 利用 播 动 随机 数 投 子 , 将 每 个 角 子 表示 的 数字 排列 起 来 就 构 
成 随机 数 表 . 更 多 的 情况 是 利用 大 型 计算 机 ， 采 用 专门 设计 的 程序 产生 
的 伪 随 宙 数 ， 产 生 的 化 随机 数 的 循环 周期 愈 长 僵 好 《至 少 要 求 在 10 之 
上 ), 此 外 ， 还 应 通过 各 种 独立 性 与 随机 性 的 检验 ， 本 书 末 附 有 五 页 随机 
数 表 ， 每 页 有 提 x #50 一 2500 个 逢 机 数字 .排版 的 方式 只 是 为 了 使 用 方 
恒 ， 在 使 用 时 可 以 根据 情况 灵活 掌握 ， 例 如 关于 排列 顺序 可 以 按 行 从 左 
至 右 , 到 该 行 绩 尾 时 再 转 下 一 行 , 也 可 以 按 列 从 上 至 下 ， 到 结尾 时 再 转 下 
一 列 等 等 . 
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在 使 用 时 , 为 克服 个 人 可 能 有 的 习惯 全 向 , 增加 随机 性 ， 首 先 确定 使 
用 的 随机 数 的 页 数 与 起 点 .这 也 用 随机 数 来 确定 .譬如 说 ， 闭 上 眼睛 将 
笔 放 倒 在 某 页 随 宙 数 表 中 ， 以 笔尖 事 到 的 数字 确定 选用 的 随机 数 表 的 现 
数 : 例如 0, 工 选用 第 一 页 ， 2, 3 选用 第 二 页 ,……, 8, 9 选用 第 五 页 等 .其 
次 决定 随机 数 的 起 点 , 还 是 闭 上 限 了 哺 , 将 笔 放 倒 ， 笔 尖 碰 到 的 数字 及 下 一 
个 数字 作为 起 点 的 行 数 (必要 时 减 去 35, 50 或 75)， 用 同样 的 方法 再 决 
定 列 数 , 这 祥 就 决定 了 起 点 . 

起 点 多 定 后 ， 以 下 的 步骤 与 上 一 小 节 介 绍 的 使 用 随机 数 肯 了 予 的 方法 
相仿 , 先 确定 需要 的 位 数 m, 然后 按 一 定 的 顺序 读 随 机 数字 ， 相 当 于 随机 
数 仍 子 产生 的 Be， 最 后 按 GB10111 规定 的 三 种 方法 中 的 任何 一 种 确定 
随机 数 吾 . 




















第 3 章 
分 层 抽 样 


8383.1 一 般 描 述 


3.1.1 定义 与 记号 

定义 3.1 ”如果 大 小 为 好 的 总 体 分 成 工 个 不 相 重 迭 的 子 总 体 ， 其 
大 小 分 别 为 六 :条 gs,…， Nz (CN, 演 已 知 ， 总 矶 =)》 每 个 子 总 笨 萝 为 
层 lstratum)。 从 每 层 中 独立 进行 抽样 ， 这 种 抽样 方法 称 为 分 司 拍 样 
(stratified sampling)， 所 得 的 样本 称 为 分 层 样 本 (stratified sample)。 

在 分 局 抽样 中 , 车 每 层 的 抽样 都 是 简单 随机 的 , 则 称 为 分 天 随机 抽样 
(stratified random sampling). 所 得 的 媳 本 称 为 分 层 随 机 样本 
(siratified random saraple) 

在 我 国 社会 经 济 统计 中 , 分 层 抽样 有 时 也 称 为 类 型 抽样 , 这 是 因为 在 
一 些 实际 加 题 中 ，“ 诗 ” 常 按照 调查 对 象 的 不 同类 型 而 划分 的 .例如 在 全 
国 性 调查 中 , 将 全 国 各 省 按 经 济 发 达 程 度 或 地 理 位 置 分 层 ; 在 住户 家 计 调 
查 中 , 按 户 主 的 职业 分 层 ; 在 对 企业 调查 中 , 按 企业 的 行业 及 规模 分 层 等 











以 后 我 们 用 下 标 表示 层 的 编号 (% 一 4, 3 卫 ); 

用 了 gp 分 别 表示 总 体 和 样本 中 关于 指标 多 的 第 入 层 第 单元 的 
值 ; 

用 了 一 全 /六 表示 层 权 , 它 是 已 知 的 ; 

用 四 一 mw 表示 衣 层 中 的 抽样 比 ， 其 中 m4 是 第 和 层 中 抽样 的 样本 
量 . 





对- 总 Yau/ Na, 加 ~ 窜 His/ Na 
分 别 为 及 层 (总 体 ) 均 值 与 样本 均值 
有 /ND DD 


$3.2 估计 量 及 其 性 质 瑟 
分 别 为 严 层 的 ( 层 内 ) 方 差 与 祥 本 方差 , 


3.1.2 分 层 抽 样 适用 的 场合 和 优点 

务 层 抽样 是 一 种 常用 的 抽样 技术 ， 以 下 情况 都 使 我 们 有 理由 考虑 采 
用 分 层 抽 样 . 

了 在 调查 中 不 仅 需 要 对 总 体 的 参数 进行 合计 , 也 需要 对 层 的 参数 进 
行 估 计 且 考 虚 它们 的 精度 .例如 在 一 项 全 国 性 调查 中 ， 既 要 求 获得 全 国 
的 结果 , 也 需要 有 分 省 的 结果 . 

他 使 样本 更 具 代 表 性 . 这 是 因为 分 层 负 样 中 每 层 一 定 有 单元 被 折 
到 , 从 而 样本 前 均匀 性 更 好 . 

3) 使 实施 中 的 组 织 管理 及 数据 汇总 都 比较 方便 .分 层 抽样 :中 的 数 
据 收 集 、 汇 总 和 处 理 都 可 按 层 独立 进行 ， 如 果 层 是 按 一 定 行政 系统 区 分 
时 ， 就 可 接 各 自 的 行政 系统 组 织 ， 而 分 层 样本 的 数据 汇总 与 处 理 相 当 简 
便 . 




















4) 对 不 同 层 可 以 按照 具体 情况 和 条 件 采用 不 园 的 抽样 方法 ， 例 如 
在 一 些 导 中 用 等 概率 抽 桩 , 而 在 另 一 些 层 中 用 不 等 概率 抽样 ;或 者 在 一 些 
雇 中 用 二 阶 抽样 ; 在 另 一 些 层 中 需 用 三 阶 或 四 阶 抽样 . 

如 分 层 抽 样 可 以 提高 信 计 量 的 精度 .这 也 是 采用 分 层 抽样 的 原因 
之 一 .在 下 面 的 讨论 中 , 我 们 将 看 到 在 分 屋 抽样 中 , 层 间 变 状 不 进入 最 后 
舍 计 量 的 抽样 误差 中 ， 固 此 当 层 内 单元 指标 差异 较 小， 而 层 间 差异 较 大 
时 , 分 层 抽 祥 的 精 次 就 可 以 有 较 大 程度 的 提高 . 

当然 分 层 抽 样 也 会 带 来 茶 些 技 术 问 题 .首先 是 层 的 划分 ,有 时 在 实际 
中 分 层 并 不 容易 , 需要 收集 必要 的 资料 , 从 而 耗费 疾 外 的 费用 。、 另 外， 分 
层 抽样 要 求 各 层 的 大 小 都 是 已 知 的 , 当 它们 不 能 精确 得 知 时 , 就 需要 到 过 
别 的 手 锋 进行 估计 .这 不 仅 增加 了 灰 样 设计 的 复杂 人性， 而 且 也 会 带 进 新 
的 误差 . 


























$3.2 估计 量 及 其 性 质 : 


3.2.1 估计 量 的 构造 
在 分 层 抽样 中 ， 对 总 体 均值 了 的 估计 采用 各 层 均值 了 了 ,的 估计 仿 按 
层 权 fr 的 加 权 平 均 , 即 一 


5 第 3 章 分 层 抽 样 
人 工本 人 参 
号 .- WP 二 局 卫 多 (8-1) 


竺 别 ,对 分 层 随机 抽样 , 多 一 般 取 为 层 的 样本 均值 和, 因而 也 用 以 下 
简单 估计 ， 


一 开 四 一 
3 一 翌 Wa 各 局， 《3.2) 

总 体 总 和 了 了 的 简单 估计 为 
= N34 一 高 Wi 声 . (8.9) 


3.2.2 基本 性 质 

定理 3.2 对 一 般 的 分 层 抽 样 , 车 会 , 是 了 的 无 仿 估 计 全 :也 2,…， 
荆 ), 则 了 ww 是 了 区 无 仿 估 计 ， 

证 明 (从 一 如 ( 访 WW 多 ) 一 襄 WP 一 了 . 里 

定理 8.8 对 一 般 的 分 层 抽样 


rE) Wr (人 . (3 
证 明 ”因为 各 层 的 抽样 是 相互 独立 的 ， 因 此 多 , 相互 独立 ， 从 而 定理 
得 证 . 四 

定理 3.3 对 于 分 层 随机 抽样 , 作为 了 的 简单 估计 jos。 有 

BY) ~Y, (8. 
-pe 
VD- lf) (3.6) 
-以 ( 二 一 志 )m3s (3.7) 
5 WIS EB WS 

一 六 一 让 站 一 人 (8.8) 


征明 ”从 定理 8.9 及 定理 2.2 即 得 。 共 中 (8.8) 式 中 的 第 二 项 
吉本 型- 高 -权时 wi 


天 未 考 起 有限 总 体 校 正 因子 引起 的 广大 扩 夺 少 ， 昌 
定理 3.4 对 分 层 随 机 抽样 ， FF(9w) 的 一 个 无 偏 信 计 是 
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oD 一 高 卫 型 -4 一 f) C8.9) 
-总 到 i 二 站 了 ， C8.10) 
其 中 
吕 一 而 + 十 (gm — Fs) (8.11) 
十 第 户 中 所 抽样 本 的 样本 方差 . 
证 明 ”根据 定理 2.4, 号 是 到 的 元 偏 信 计 ， 从 而 由 定理 3.8 即 得 
证 , 目 





v(gw) 要 求 每 层 的 样本 量 ww>>2. 在 ns 一 + 的 情形 需 作 特 殊 处 理 ， 参 
见 3.7.8 愉 ， 
定理 3.5 对 分 层 随机 抽样 , Y 的 简单 估计 全 一 交 3s 有 如 下 性 质 ; 


I> EC(P) = YY, (3.12) 
2 了 了) -以 本 (wm) 王 ， (3.18) 
3° ua( 他 .一 > sn) /nn (8.14) 


是 区 (多 。) 的 一 个 无 偏 估计 . 
证 明 ”出 全。 的 定义 及 定理 3.3、 定 理 3.4 即 可 推 得 . 鲁 


3.2.3 比例 分 配 及 自 加 权 样 本 


在 分 层 抽 样 中 ,一 个 重要 的 问题 是 总 的 样本 量 在 各 层 中 的 分 配 问 题 . 
这 里 有 两 种 考虑 ， 一 是 出 于 精度 和 费用 的 考虑 ， 如 何 分 配 能 使 总 的 精度 
最 高 (在 一 定 费 用 很 制 下)? 如 果 对 层 的 估计 也 有 精度 要 求 的 话 , 还 要 保证 
各 层 的 样本 量 要 求 。 由 于 不 同 层 的 抽样 与 调查 费用 可 能 有 差别 ， 因 此 还 
需要 有 经 济 的 岗 点 ， 另 一 方面 是 基于 数据 处 理 的 考虑 ， 如 何 分 配 能 使 事 
后 揭 数 据 处 理 比较 简洁 ， 也 就 是 说 应 尽 可 能 使 佑 计量 及 其 方差 估计 都 有 
简单 的 形式 , 使 数据 汇总 工作 量 小 , 省 时 省 力 . 

定义 38.2 在 分 层 抽样 中 ， 若 每 层 的 样本 量 ms 都 与 层 的 大 小 Ws 成 
比例 , 即 














办 -和 或 有 =f -1 2,…, 国 ， 《3.15) 


囊 称 样本 量 的 这 种 分配 为 比例 分 号 《proporiional allocation). (3.15) 
式 也 可 写成 如 于 形式 ， 
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2 Ns Wh 1, 2, ,5D). (3.16) 
% N 


比例 分 配 最 早 是 由 Bowley 于 1926 年 提出 的 . 

对 于 比 俩 分 配 的 分 层 随机 抽样 , 总 体 中 的 任何 一 个 单元 , 不 管 它 是 哪 
一 层 的 , 进入 样本 的 概率 都 为 了 一 mr 六， 因此 ， 出 例 分 配 分 层 随 机 样本 是 
一 种 等 概率 抽取 方法 (equal probability seiection method) 形 成 的 样 


本 .此 时 作为 总 体 均 值 了 的 简单 估计 yer 等 于 








加 -证 Wi 训 加 ow- 二 训 革 wi) 
22 一 个 YO = 记 部 名 在 3 一 9 - 
而 总 体 总 和 了 的 估计 为 ; 

了 .= 5 之 之 晤 or 全 多 (3.18) 
其 中 2 

4 名 商 加 (3.19) 

是 所 有 样本 观测 值 的 总 和 ， 因 此 , 对 比例 分 配 的 分 层 随 机 样本 , 佑 计量 故 
特别 简单 前 形式 . 


定义 3.3 对 于 一 种 抽样 方法 ， 若 总 体 总 和 的 一 个 无 偏 合计 可 表 成 

其 小 (基本 》 样 本 单元 ( 即 个 体 ) 观 测 值 总 和 的 一 个 常数 倍 , 即 

全 = jy (3.20) 
出 称 这 种 样本 (或 估计 量 ) 为 自 加 要 的 (self-weighting) 或 等 加 权 的 
(equi-weighting). 

当 我 们 用 样本 观测 值 来 估计 总 体 时 ， 一 种 较为 自然 的 估计 是 将 每 个 
样本 单元 的 观测 值 赋 以 一 个 适当 的 权 四 ， 然 后 求 和 ， 也 即 考 虑 如 下 的 线 
性 无 偏 估计 : 

多 - 名 ae (8.21) 


其 中 狗 是 样本 中 最 小 单元 的 观测 值 ， 丙 此 对 于 自 加 权 样 本 就 是 意味 着 所 
有 的 权 m 都 相等 ， 等 概率 抽取 方法 得 到 的 样本 通常 是 自 加 权 的 ， 虽然 两 
者 从 概念 上 并 不 完全 一 致 . 

由 于 自 加 权 样 本 估计 晤 特别 简单 ， 因 此 只 要 有 可 能 ， 在 抽 祥 没 计时 ， 
使 最 终 样 本 为 自如 权 的 就 可 大 大 简化 调查 以 后 的 数据 人 处理， 特别 是 大 规 
模 的 多 指标 的 调查 , 自 加 权 样 本 的 优点 万 其 明显 . 不过， 也 应 看 到 ,在 大 
谢 模 抽样 调查 中 ; 特别 是 在 涉及 多 阶 抽样 中 要 保证 最 比 获 得 的 样本 是 严 
糙 让 如 权 的 , 也 不 是 很 容易 的 事 ， 这 里 的 困难 主要 不 是 理论 上 的 (在 设 证 
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时 要 做 到 这 一 点 并 不 十 分 困难 ), 而 是 在 实际 抽样 实施 时 ， 常 会 发 生 偏离 
原 定 设计 的 情况 . 

从 (3.19) 式 可 以 看 到 , 对 于 分 层 随 机 抽样 ， 只 权 做 到 比例 分 配 ， 所 得 
的 样本 即 是 自如 权 的 . 

比例 分 配 分 层 随机 抽样 估计 量 的 方差 也 有 比较 简单 的 形式 . 事实 上 ， 
根据 (3.6)、(3.15) 及 (3.16) 式 , 此 时 


Vo (8) 一生- 荆 襄 W835. (3.22) 





注意 : 以 Ps 是 各 层 层 内 方差 品 的 按 层 权 的 加 权 平 均 , 若 各 以 内 
方差 相等 或 近似 相等 , 记 为 84, 则 


Vo = 区 (3.23) 





3.2.4 一 个 简单 的 实验 例子 
例 3.1 设 兽 体 的 他 =6, 分 成 两 层 ， 其 单元 指标 值 了 如 表 3.1 所 
示 ， 
表 3.1 一 个 简单 的 分 层 总 体 的 了 se 信 
~ 











~ 2 3 
为 ~ 人 1 

工 1 2 

2 4 6 11 
从 表 3. 工 中 , 易 见 


Wi= Wa— /6=1/2, 
Fi—1, PFs—7, Po—4, 51—1, Ss— ~13. 
考 虚 在 这 个 总 体 中 袖 一 个 % 二 生 比 例 分 配 的 分 层 随 机 样本 , 这 意味 着 
mi= za 一 2。 所 有 可 能 的 样本 有 9 个 ,对 每 个 样本 计算 gu( 一 分 及 和 一 了 
结果 如 表 3.2 所 示 。 
经 验证 ， 
(Du) 一 寺 [2.75+4.00+…+5.00] = 全 =4- 多. 


这 表明 和 os 是 无 偏 的 ， 又 
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表 3. 呈 从 表 3.1 总 体 抽取 的 ”一生 按 比 例 分 配 的 全 部 可 能 分 层 样本 


Yu Yr; Val Yan 

















一 加 5.25 了 
(D0) 一 吾 [( 一 1-25)? 二 0 十 十 人 -00 一 三 科 一 二 


注意 :在 应 用 矿 (的 一 盏 中 一 百 ( 命 ]? 这 个 公式 直 搂 计算 估计 量 方差 
时 ， 妃 古 对 所 有 可 能 罕 本 求 平均 的 . 如 果 用 (3.22) 式 求 , 结果 为 
GD) 证 WSI- 下 二 一 


3x4x23 了 3， 
与 前 面 的 结果 一 致 . 














83.3 最 优 分 本 


3.3.1 最 优 分 配 的 定义 


定义 38. 和 在 分 层 随 机 抽样 中 , 对 给 定 费 用 , 使 了 (go 达到 最 小 ， 或 
对 给 定 的 gu 的 方差 广 使 总 费用 最 小 的 各 层 样本 量 的 分 配 称 为 景 优 分 配 
Coptimum allocation). 


在 这 一 节 中 主要 考虑 简单 的 线性 费用 画 数 , 总 费用 
Oc0+t 襄 mm, (8.24) 


其 中 oo 是 与 单元 抽取 量 无 关 提 费用， 例如 包括 组 织 宣传 费用 ， 分 层 及 编 
制 抽样 框 的 费用 等 ，cs 是 在 第 天 层 中 卸 取 一 个 章 元 的 平均 费用 ， 包 括 调 
查 员 所 费 的 时 间 ( 也 包括 工资 .津贴 等 ) .旅行 费用 、 调查 测试 费用 等 ， 

训 果 从 一 个 单元 至 别 一 单元 的 调查 旅行 效用 比较 昂贵 ， 就 可 能 需要 
采用 鱼 为 复杂 的 费用 函数 。 鲍 如 Beardwood 等 (1959) 提出 以 下 的 费用 
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函数 
co 二 避 所 Vm, (8.25) 


其 中 总 是 到 达 每 个 单元 的 平均 旅行 费用 . 


3.3.2 主要 结果 
定理 3.6 对 分 层 随 机 抽样 , 车 费用 函数 是 简单 线性 的 (3.34)， 则 最 


做 分 配 是 
Tn aS» ve 一 DS/ Vo Ch= 1, 2, -7, DD. 
”WS p> SOL 





(3.26) 
a 
证 明 工 令 CO 一 0 一 名 cm， 





v 有 vs WISS 
太一 和 + 个 N 之 ma 


则 在 给 定 总 费用 @ 下 极 小 化 ys 的 方差 太 与 在 给 定 玉 下 极 小 化 0 两 者 
都 等 价 于 极 小 化 : 
和 人 a 
-[ 训 (5 TS ][ 访 {~ om) *], 
根据 Qauehy-3chwarz 不 等 式 ， 对 三 卫 as>0, b>>0, 有 








(>) (3.28} 
等 号 当 且 仅 当 
—K=conest 
时 才 成 立 . 
于 是 有 V0'>( 访 WSs) 
它 妈 在 以 下 情况 达到 极 小 值 ( 上 式 等 号 成 立 ) 
Mermm MV 
WaT 党 KE=o0nst (3.29) 
上 式 即 意味 着 





mm 一 区 De (R=1, 2,1…, £) (3.80) 


对 所 有 的 加 求 和 , 即 得 到 使 Fe 达到 极 小 的 最 优 分 配 为 : 


2 } 第 3 章 分 层 抽样 
wm Wy/ Vo _ NS Vo (hl, 3 Fb). 


"eV WB/ 





(3.3D) 
证 明史 用 Lagrange 乘 子 法 ， 如 在 总 费用 口 固定 下 ， 极 小 化 为 
(gn), 则 约 训 条 件 为 


O00+ 襄 erm. (3.82) 
令 PVs) TNO-0— 训 crms) 


对 所 有 的 六 求全 对 ns 的 偏 导数 ,并 令 其 为 零 , 得 : 
— SE thcs—0, 


- 乌 一 立 (O60 -六 os). 


2 — Kn (3.38) 
由 于 MV 入 是 常数 , 故 
WaS 
Wi 
对 所 有 的 太 求 和 , 可 得 到 
mn SV ht, 2,.., LD). 
We/V 

在 (3.32) 条 件 下 , 根据 (3.38) 还 可 解 出 mw”。 事 实 上 ， 半 于 (3.83) 对 所 


有 下 求 和 , 可 得 : 


/一 _ 1 二 
MN Oe 翌 vw Wns. 





于 是 
C 一 oo WaSs (=1, 29, +…, 五) . {8.34) 


Vo 容 Vamssn 

定理 3.6 表明 m 与 入 (到) 及 5s 成 正比 , 与 V6 成 反比 ,这 就 是 说 ， 
层 愈 大 , 层 内 变 差 愈 大 , 而 在 该 层 抽样 中 平均 每 单元 的 费用 愈 小 ， 则 在 该 
层 中 的 抽样 应 您 多 . 
3.3.3 Neyman (最 优 ) 分 配 

如 果 每 层 中 单位 撒 样 费用 相等 , 也 即 mw 一 e 时 , 风 最 优 分 配 简化 为 ， 





1 一 


83.3 最 优 分 配 €3 


nm WaSy -Ras (3.35y 














这 个 结果 吕 在 -19283 年 就 已 被 俄国 学 者 Tschuprow 给 出 但 由 于 关 
了 前 历史 条 件 , 可 人 异 一 直 未 被 人 注意 到 , 直到 1934 年 为 Neyman 重新 给 
地。 六 此 在 文献 中 ， 这 种 简单 形式 的 最 优 分 配 常 被 称 为 Neyman 分 配 . 
在 Neyman 分 于 情形 , 所 能 达到 的 最 小 方差 为 : 
(WS 3 WaS 


万 my 一 一 一 六 一 (3.36) 


这 只 要 将 (3.26) 式 中 的 mw 代入 丈 ' 一 守 - 世 和 ， 即 可 得 到 上 式 右 映 的 第 


一 项 . 
例 3.2 对 于 3.2-4 段 中 的 实验 例子 仍 取 %-4,， 但 按 最 优 分 配 ( 设 


每 层 中 的 单位 抽样 费用 相同 》, 则 根据 (3.35) 式 ,有 


nWaS x1 oe 
由 
naSs 4%3.6050 8 jsw8. 





7 WStHSs 4.6056 
最 优 分 配 的 可 能 样本 只 有 # 个 , 相应 的 样本 单元 值 上 及 ,+ 如 表 3.3 所 
表 3.8 从 表 3.1 总 体 抽取 的 wa 一 4 按 最 优 分 配 的 全 部 可 能 祥 本 


:Ya 8 











1 0 4 6 1 3.5 一 0.5 

2 I gs 6 1 .0 o 

了 2 4 6 11 4.5 0.5 
12.0 0 





BI) $8.5+4.044.6) -4 了. 
故 ys 仍 是 无 偏 的 ， 按 定义 直接 计算 go 的 方差 为， 
VCgw) 一 村 [( 一 0.82-+02+ (0.5)"] 0.167. 
这 个 结果 与 用 (3.6) 式 的 结果 一 致 但 考 按 (3.36) 式 ， gs 的 最 小 方差 应 
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Von (Go) = (ET WH)’ CE WS 
一 闻 x 六 (1+8.6056)? 一 各 x 于 (1+18) 一 0.158， 
这 是 理论 上 能 达到 的 最 小 值 。 实际 上 由 于 心 只 能 取 整 数值 .我们 在 计 
算 时 已 将 计算 值 mu 一 0.87, ma 一 3.13 都 归 整 为 1 与 3， 从 而 实际 达到 的 


方差 比 上 述 理论 值 稍 大 . 


3.3.4 沫 些 层 需要 超过 100% 抽样 时 的 修正 
车 抽 祥 比 f 一 n/N 较 大 ,而 某 些 个 别 层 的 5S 也 很 大 ， 风 按 景 优 分 配 
计算 , 这 些 层 的 mw 有 可 能 超过 Wx。 此 时 可 以 证 明 实际 最 优 分 本 是 对 这 些 
层 进行 100% 抽样 的 ， 然 后 将 鲁 下 样本 量 按 最 优 分 配药 公式 分 配 . 在 
Neyman 分 本 情形 , 严格 的 步骤 如 下 (证 明 留 作 练习 )， 
假定 > 和, 则 令 向 == i， 
Bh (nN) (a). (3.97) 





T 





HOE 
A 


车 所 有 的 各 所 访 、 纹 ), 则 分 配合 理 , 实际 配置 按 加 分 配 。 否则 ,， 若 有 
Ne>Na, 则 令 鸡 一 到 入 一 入 a， 
Wn WN (8). (8.88) 
车 记 有 的 党 <Ws 纹 >3), 则 分 配合 理 . 否则, 再 重复 上 上 述 过 程 ， 直 至 记 有 
萄 而 所 TW 为止 . 
此 时 , 最 优 分 配 达 到 前 最小) 方差 公式 (3.86) 也 需 作 相应 的 收 或 ; 

Fn 一 走 ( 守 W395) 一 言 守 Ww (8.89) 
其 中 妥 为 仅 对 最 后 实际 抽样 的 名 < 可 的 层 求 和 ，m 为 这 些 层 中 抽样 的 
单元 总 数 。 


83.4 分 层 随 机 抽样 在 精度 上 的 得 益 


3.4.1 与 简单 随机 狂 样 的 比较 
在 通常 情况 -人防 分 层 随机 抽样 的 精度 要 化 简单 随机 搞 样 的 高 , 也 即 信 


好 3.4 分 层 随机 拍 祥 在 精度 上 的 得 益 上 


计量 的 方差 较 小 . 由于 分 层 随 机 抽样 的 精 许 与 样本 量 的 分 配 有 密切 关系 ， 
因此 这 里 不 包括 明显 不 合理 分 配 的 分 房 抽 样 。 事实 上 , 对 任何 一 个 总 性 ， 
都 可 设计 一 种 特别 的 分 配 ， 便 分 层 随机 拖 套 的 精度 比 简单 随机 抽样 的 还 
要 差 . 当然 这 没有 任何 意义 . 

在 这 一 小节 中 , 我 们 将 最 优 分 配 .比例 分 配 分 层 随 机 抽样 与 相同 祥 本 
量 的 简单 随机 抽样 作 精 度 的 比较 、 

定理 3.7 若 -天 < @ 一 二 2 …， 功 ， 则 最 优 分 瑟 GNeymon 分 
配 销 形 ) 分 层 随机 抽样 佑 计量 gs 的 方差 了 ooe. 比例 分 配 分 层 随 机 抽样 9 
的 方差 Ferop 与 简单 随机 抽样 y 的 方差 了 se 之 间 有 如 下 关系 

天 Fn “ {3.40) 
证 明 ”根据 最 优 分 配 的 定义 ,Fi<<Tram， 故 只 需 证 明 


一 Ee 一 
Vo LS WR 二 Sr Vem. 


考虑 总 体 各 单元 指标 值 Pm 对 总 体 均值 了 了 离 差 平方 和 的 分 解 : 
CT 一 DB 总 CFP) 

















站 共 cr- 癌 msP) 
-以 CD8 和 + 局 瑟 ( 了 一 了 )*， (3.41) 
两 端 同 时 除 以 为 I， 由 于 对 所 有 的 4/Ns<<1, 帮 


Ny Nr, 
HI Ni~W- 


反而 得 
Bem 癌 机 8 十 语 了 rr ( 了) (3.42) 
上 式 第 二 项 即 是 层 间 平方 和 , 是 非 负 的 , 因此 有 
Ven Vo td WFP), (8.43) 
VpropEV om. 
从 而 定理 得 证 . 四 


3.4.2 何 时 分 层 及 最 优 分 配 的 精度 得 益 最 大 
现在 我 们 考虑 最 优 分 配 与 出 例 分配 分 层 随 机 抽样 方 差 的 差 ， 
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1 s ， 
From 一 Fa- 二 [ 宫 me 一 (总 men) ] 
= 二 名 本 ws 一 可 5 C3.44) 
下 总 


其 中 全 一 六 全 ws 
是 5 按 Ws 的 其 权 平 均 . 

于 是 根 锯 (3.43) 与 (3.44) 式 , 当 衣 - < 时 , 

ViVi i Wc B+ i P,P). 
n 全 二 n%n 二 
(3.45) 

上 式 右 端的 第 二 项 是 各 层 标准 差 的 差异 ， 它 可 通过 考 左 最 优 分 配 得 
以 消除 , 而 第 三 项 是 各 县 均 值 的 差异 , 它 可 通过 比例 分 本 的 分 层 抽样 得 芒 
消除 ，《3.45) 式 也 宕 明 当 各 屋 均 什 差 异 愈 大 , 出 一 般 的 分 层 (以 比例 分 本 
为 其 代表 ) 的 效益 愈 高 , 而 当 各 层 的 标准 差 相 差 较 大 时 ， 最 优 分 配 双 可比 
比例 分 配 有 较 大 的 得 益 . 

最 理想 的 分 层 是 技 调 查 指标 /的 数值 分 ， 册 于 卫 , 本 身 是 调查 对 象 ， 
不 能 直接 利用 , 位 可 以 通过 与 约 相关 的 一 个 或 多 个 辅助 变量 来 分 层 . 

对 于 最 优 分 配 , 还 需 用 关于 层 的 标准 差 8 的 信息 ， 因 此 需要 事先 进 
行 信 计 ， 辟 如 说 根据 以 往 的 调查 指标 或 与 它 相 关 的 辅助 指标 的 信息 ， 也 
可 以 用 与 8 直接 有 联系 的 量 ， 辟 如 说 , 如 果 层 内 变 差 系数 不 大 ， 则 可 用 
与 ys, 了, 也 即 与 了; 威 正比 的 分 配 形式 ; 另 一 种 情况 是 利 服 层 内 的 航 莽 ， 
也 即 用 与 Wara (my 为 万 层 的 极 差 ) 成 比例 的 分 配 形式 、 这 些 都 可 以 看 成 
”是 最 优 分 本 的 一 些 变通 方法 ， 由 于 59 实际 上 不 知 需要 信 计 ， 加 上 其 他 一 
些 原因 , 因此 最 优 分 配 的 实际 得 益 并 没有 公式 表示 的 那么 大 (关于 偏离 最 
优秀 配 造成 的 影响 详 兄 3.4.6 段 )、 相 对 而 言 ， 由 于 比例 分 配 的 样本 是 
自 加 权 的 ， 且 一- 般 而 言 (除非 如 差别 过 于 旺 殊 ) 距 最 优 分 配 并 不 太 远 , 故 
更 受 实际 工作 者 所 欢迎 ， 通 常 ， 著 比例 分 配 的 方差 仅 比 (理论 上 的 ) 最 优 
分 配 的 方差 大 如 和 %~20 匈 ， 则 用 比例 分 配 仍 是 值得 的 . 
3.4.3 分 层 随机 抽 祥 精度 反比 简单 随机 抽样 差 的 情形 

理论 上 并 不 排 陈 出 现 分 层 随机 撒 拌 的 效果 反比 简单 戎 机 抽样 郑 的 铺 
况 (正如 前 面 已 指出 的 , 这 里 不 包括 人 为 的 不 合理 分 配 )， 虽然 在 合理 分 屋 
情形 , 这 是 不 大 可 能 发 生 的 . 

根据 (3.41) 式 , 有 
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工 一 1—f & Ns—l 
Vo NYY) 
2/ 芯 一 
一 NN D— WN—NDIS 
1 
ta 7 
1_f 3 1 (NN) 


总 Na (Fs— Py)? 


, | _ ge 
~ Vom 于 三) 访 Ps 一 了 了 )* 一 言 避 CN N82]. 
(3.46) 


1— 
me 





上 面 推导 过 程 中 未 作 任何 近似 ， 因此 知 虹 
访 丽 (P,- :< 二 吉 训 (一 Na) SE, 


就 有 Fe 和 er 的 情况 出 现 ， 而 (3. 售 ) 式 成 立 的 情况 是 存在 的 .为 简单 
《此 时 最 借 分 配 与 比例 分 配 等 价 ), 《83.47) 式 右 端 即 为 





(3.47) 


起 殉 , 设 太一 
等 A LN-N)- LD. 
因为 
名 mwCP, 一 P)? 
歼 会 二 一 了 一 一 一 (3.48》 
即 是 层 间 方差 ， 因 此 3. 各) 等 价 于 
3 一 . 


这 也 就 是 对 了 ni 作 方 差分 析 时 五 <1 的 情形 。 这 种 情况 是 不 难 列举 的 
例 3.3 一 个 =15, 荆 =3 的 总 体 如 由 3-4 所 示 . 


表 34 





日 
AN 1 2 3 4 5 PF, SB 
A 
1 3 8 9 4 6 6 6.5 
2 0 2 4 6 8 4 10 
3 3 7 5 9 5 10 
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经 平方 和 分 解 得 到 的 方 革 分 析 表 如 表 3.4 所 示 . 











表 3 和 粳 
变 差 来 源 平 万 和 自 由 证 方差 ( 均 方 ) 到 
层 问 对 一下 ?一 1 工 一 1 一 2 SE—5.00 O57 
层 内 有 wl06 工 (Wan- 了 一 1 一 8.83 
总 计 对 Erm- F116 好 一 1 一 于 N28.29 . 


对 这 个 总 体 ， 匹 论 哪 种 分 配 的 分 层 随机 抽样 的 效果 都 比 简单 随机 抽 
样 的 差 。 其 根源 是 对 这 个 总 体 的 分 层 不 合理 (平均 层 内 方差 大 于 总 笨 方 


” 差 ). 


3.4.4 从 样本 估计 分 层 随 机 抽样 精度 的 得 益 

前 面 的 讨论 都 是 在 已 知 总 体 及 各 层 具 体 结构 情况 下 进行 的 ， 实 陈 上 
有 关 总 体 的 精确 参数 是 未 知 的 ， 现 在 的 问题 是 在 一 个 分 层 随机 抽样 实施 
以 后 ,能 否 根 据 样本 数据 米 估计 由 于 分 屋 获 得 的 精度 上 的 好 处 ?或 佑 计 这 
个 分 层 抽样 的 设计 效应 ? 

根据 定理 3.4，ger 的 方差 可 以 从 样本 中 获得 估计 ， 因 此 问题 的 焦点 
是 如 何 用 一 个 分 层 样本 来 对 相同 样本 量 下 简单 随机 抽样 的 方差 六 (3) 进 
行 估计 .了 NN. 及 , Rao(1962) 给 出 了 如 下 的 定理 : 

定理 3.8 根据 分 层 随机 样本 ， 间 样 样本 基 的 简单 随机 样本 对 总 体 
均值 信 计 的 方差 斑 (3) 的 一 个 无 偏 信 计 为 


wm (3.49) 


其 中 v(9s) 由 (3.10) 给 出 . 
证 明 ”由 定理 2.2, 六 9 可 改写 为 


Pome (3) 一 7] 




















nN nN 一 十) 
Sy MN 1! Ns 从 
因为“ 瑟 信 站 入 全 ) 襄 入 入 7 让 晤 7 
Blv(ys)] = VB) - Pa, 
从 而 Bl[ys~ vy)] = Ps. 


于 是 Elvenm) 一 Vn. 明 


3.4 分 层 随 机 抽 狂 在 精度 上 的 得 益 a 
报 据 定理 3.8， 即 可 计算 一 个 分 层 随机 抽样 的 设计 效应 de 人: 


de 证 二 vyst) . (3.50) 
am 


(3.49) 式 中 








1 Ns 
en 
也 可 以 用 层 样本 方差 器 与 均值 加 来 表示 , 从 而 得 到 
Wn _[e Ws? A 
ee 
(8.51) 
当心 帮 比 较 大 , 例如 mm>50 时 (此 时 更 大 )， 守 -加 如 与 (3 


的 值 可 和 忽略 不 计 , 此 时 有 














DR i 全 王权 下 一 区 (3.52) 
对 比例 分 配 , (3. 诺 ) 可 简化 为 : 
vn yt ] (3.58) 
其 中 G9 一 DD 一 襄 六 (gm 一) 
邵 为 样本 离 差 平方 和 (此 时 一 下， 若 wm 足够 大 , 有 近似 公式 : 
CD (8.54) 


3.4.5 数值 例子 一 一 关于 职工 月 平均 奖金 额 的 调查 

例 3.& 为 调查 某 市 企业 、 初 关 与 事业 单位 职工 葛 月 平均 奖金 ， 将 职 
式 所 属 单位 按 性 质 分 成 4 层 , 有 关 数 据 如 下 3.5 所 示 . 其 中 层 内 标准 差 S% 
系 估计 数值 , 
袁 3.5 职工 月 平均 奖金 调查 按 所 属 单位 分 层 情况 
九 ( 层 名 称 ) “| NWx( 耶 工人 数 ) | 到 ( 层 权 ) 














人 (屋内 标准 六 ) | Wn 











I 全 民企 业 15220 0.54164 14 7 .58296 
3 集体 企业 8710 0.30996 323 7.12808 
3 合资 企业 850 0.03025 44 1.33100 
4 机 闫 事业 单位 3320 站 .4825 5 0.59075 








合 计 28100 } 16.63379 
一 一- ~ Lv 
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给 定 样本 总 量 一 600， 接 指定 分 配合 一 800, rn 一 200, ms 一 mm 一 可 
以 及 比例 分 配 、 最 饶 分 配 (Neyman 分 配 ) 和 进行 分 层 随 机 抽样 .实际 分 配 
的 样本 量 数值 列 于 表 3.6. 





表 8.6 职工 月 平均 奖金 诺 查 祥 本 量 的 分 配 博 况 








调查 后 经 初步 计算 各 层 样本 均值 与 方差 的 数据 见 表 3.7， 
表 3.? 职工 月 平均 奖金 调查 各 层 样本 均值 四 与 方差 呈 

















指定 分 配 比例 分 配 奶 佐 分 
办 遇 克 可 六 强 
1 25.50 196.70 28.10 180.78 28.70 
2 235.40 379.16 34.20 453.20 36.80 
3 48.50 18340.81 42.30 895.20 46.90 
4 14.20 18.57 15.30 24.98 15.80 





分别 对 三 种 不 同 的 分 配 计 算 gur 及 wvCyst) 并 对 各 自 的 deff 进行 估计 ; 
解 1)》 指定 分 配 
Dat - 立 Wyn 
=—0.54164 x 25.50-++0.380996 x 35.40+0.03025 x 48.50 


十 9-11815 x 14.20— 27,9298, 


jy Wy? 3 > 
?9 一 宫 蔚 - 襄 mW? 
=0. de 0 0095 =0.3947, 


一 二 区 配 s- 守 耿 二 as 二 导 克 泪 一 政 ++v 03)] 
=0.0016311(266 .8034 一 0 40 +836.6102 
—780.0458+0.3947) 
一 0.0016311 x 322.3583 一 0.5258， 


AAA vyst) _ 0.3947 
ae 
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2) 比例 分 配 
Ys -BP Wg — 28.9080, 


vyer) -二 之 Ws —0.1878, 





Nn Ws¥ , 强 一 多 5 
a 


=0.0016811 x 802.5952=0.4986, 


[全 ez _ 0.4878 _ 
df 955 0°80. 


这 里 计算 we 仍 几 一 般 情形 的 (3. 红 ) 式 ， 机 没有 用 (3.53) 式 .， 根 据 
表 3.7 给 出 的 数据 , 车 用 (3.53) 式 , 则 所 有 样本 数据 的 离 差 平方 和 应 按 下 


式 计算 ， 








Cn De = DR+ Em ge) 
3) 最 优 分 配 
yt EWhys— 29.1588, 
有 
总 m fi 
一 0.3778 一 0.0C91-=0.3687， 


wy) 一 


__Non re vr Wasg pr 
wn [Em 2 + EW | 


=0.00163i1 x308.0257 =0.5024, 


A PBs) _ 0.3687 _ 
dof 00.73. 


”注意 ， 在 本 例 中 ， 为 了 比较 ， 用 三 种 分 配 抽取 了 三 个 分 导 随 机 样 
本 ， 上 面 对 同样 样本 量 (% 一 600) 简 单 随机 抽样 方差 的 估计 wm 是 对 三 个 
样本 分 别 计算 的 。 整 于 本 例 的 实际 情况 , 当然 还 可 使 用 别 的 售 计 方 法 .区 
如 将 三 个 居 计 联合 起 来 ， 或 者 用 (8S. 乱 ) 式 进行 估计 ， 因 为 此 时 我 们 对 
六 wt 及 居 标 准 差 Ss 及 均值 了， 都 可 得 到 较为 精确 的 估计 .有 兴趣 的 读 
者 可 作 一 尝试 . 

最 后 我 们 指出 , 在 本 例 中 比例 分 配 的 精度 还 不 及 指定 分 配 的 精度 , 原 
因 是 这 个 指定 分 配 已 是 相当 接近 最 优 分 配 ， 而 这 个 “最 优 ” 分 配 事实 上 也 
不 是 真正 的 最 优 , 从 各 层 样本 方差 中 可 看 到 , 原先 对 层 方差 的 合计， 特别 
是 对 集体 企业 人- 2) 及 合资 企业 (4=3) 两 层 , 是 过 份 了 . 
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3.4.6 偏离 最 优 分 配 时 对 方差 的 影 殴 


在 实际 问题 中 , 由 于 层 标准 差 8x 需要 估计 ,mw 又 只 能 取 整 等 原因 , 在 
考虑 最 优 分 配 ( 以 Neyman 情形 为 例 ) 时 ， 实 际 记 用 的 样本 其 分 配 心 与 
理论 上 的 最 忧 分 配 m4 会 有 所 偏离 。 在 这 一 小 节 中 , 我 们 讨论 由 于 这 种 偏 
离 造 成 的 信 计 量 ge 方 芝 的 变化 . 

按 实际 分 配 的 样本 量 z, 根据 (3.8) 式 , 估计 量 js 的 方差 为 


; WES _ Ss, WS 
VG- 时 加 时 - 罗 辽 . 
而 理论 上 最 优 分 配 羽 记 能 达到 的 最小 方差 为 ， 
-、1 2 ps 
Vom(34) 一 六 (时 W594) 一 习 瑟 生 . 
实际 分 配 的 方差 与 最 小 方差 比较 , 方 兰 增 加 重 为 
VG -Von -W)C3.55) 
根据 (3.35) 式 解 得 
WS ~— EC WS,), 








代入 (3.55) 式 ,有 
Vg) Von (Fst) 


HE 了 
一 屯 Ths (TH) -i WS) 
» 





LF Ws | 爸 -2ntn] 


中 加 


一 上 工 os 
二 mao( 客 -alt ) 





1 人 ND 
-让 (于 WS (8.56) 
A 二 (WS, gb (38.57) 
其 中 
一 上 二 半 | (8.58) 


是 及 户 实 际 样本 量 与 最 优 分 配 样本 量 的 相对 偏 商 ， 若 忽略 fpe, 有 
一 CD WS) 
Vung) Oo . 
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因而 此 时 方差 的 相对 增加 为 : _ ~ 
a) 和 2 时 全 六. {3.59) 
上 式 右边 是 号 的 加 权 平 均 , 它 的 上 限 为 ; 
mart{gi}. (3.60) 


例 3.5 玫 3.8 给 出 了 一 个 实际 分 配 与 理论 最 优 分 配 志 偏离 程 
谋 的 数值 及 方差 相对 增加 最 欧 计 算 步 骤 . 
表 3.8 彤 离 最 优 分 配方 差 相对 增加 量 的 计算 








方差 的 相对 增加 量 为 16.049/4603.49%, g 一 max{gn} 一 0.8. 
此 即 侥 用 上 限 g?， 也 仅 9%%。 例 3.4 中 指定 分 配 与 最 优 分 本 实际 精度 比 
较 也 说 明了 这 个 问题 ， 结 论 是 ， 在 最 优 分 配 中 , mh 即使 有 些 误差 , 对 实际 
方差 影响 也 不 会 很 大 . 


3.4.7 多 指标 情形 样本 量 的 分 配 


关于 多 指标 的 调查 ， 对 某 个 指标 的 最 优 分 配 通常 也 不 会 是 其 他 指标 
的 最 优 的 或 近似 最 优 的 分 配 。 此 时 , 最 简单 的 办 法 是 采用 比例 分 配 , 不 仅 
因为 它 形式 简单 (包括 其 后 的 数据 处 理 )， 而 且 对 各 指标 大 多 能 获得 版 为 
满意 的 结果 . 

本 小 节 仍 从 最 优 分 配 的 角度 考虑 多 指标 情形 样本 量 的 分 配方 法 .这 
些 方法 本 质 上 都 是 对 不 同 指标 最 优 分 配 的 某 种 程度 的 拆 均 . 

一 、 各 指标 最 优 分 配 平 均 法 

在 众多 的 指标 中 , 选取 最 重要 的 个 .对 每 个 指标 了 计算 最 优 分 配 的 
层 样本 县 ngw， 然后 求 其 平均 信 ， 


m 误 识 几 0- 2 五. (3.61) 
由 于 蕴 标 之 间 一 般 具有 -~- 定 的 相关 性 , 因此 , 各 指标 的 最 优 分 本 不 会 
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寸 于 悬殊 取 平 均 后 ， 差 别 更 小 .考虑 到 在 计算 最 优 分 配 时 还 受到 各 指 
标 层 标准 差 估计 误差 的 影响 , 因此 在 实际 问题 中 , ns 一 般 已 能 满足 要 求 . 
二 、ChatterjeeK1967) 方 法 
设 nm 是 按 第 了 个 指标 的 最 优 分 配 ， 考 虑 实际 分 配 样 本 量 mw 对 每 个 
指标 篇 离 其 最 优 分 配 缠 起 前 方差 的 相对 增加 BP;， 根据 (3.59) 与 (3.58) 
式 , 有 
































A VTi) Png sl Sm) _ 
REV. 于 dy Yt. 二 二 羽 be me (f=1, 2，…， 五 )， 
(8.62) 
取 使 极 小 化 RV; 的 平均 值 ; ， - 
序 衬 R7， (3.68) 
的 nm， 结果 为 ; 
~ 
”SS 有 (3.64) 
Chatterjoe 方法 的 结果 (3. 64) 与 平均 法 结果 (3. 61) 相 差 其 微 . 
三 、 了 ates 方法 I(1960) 
专 尖 损失 因数 。 
jo 
-gp ) -5 ) 
2 三 (有 os3) 一 C3.65) 
车 费用 遂 数 仍 是 简单 线性 的 形式 2 一 oo 十 至 eana， 极 小 化 
(Oo(L- Lo om)(E LPsh). (8.60) 
根据 Cauehy_Sehwarz 不 等 式 (3.28), 极 小 值 当 瑟 仅 当 
We Ga 
、 Wr /Sr = cons (3.67) 
Vn Vy WE V7” 
时 达到 . 记 
全 wd, 《3.68， 
则 最 优 分 配 为 . 
cc 全 Non 《3 .69) 


从 而 


8 8.5 样本 总 是 a 的 确 让 5 
m/e (3.70) 
WA Vm) 


四 、Yates 方法 II(1960) 
对 每 个 指标 , 给 定 楼 求 的 精度 了 ;， 即 要 求 
p12 (3.71) 


= be 
在 约束 条 件 (3.71) 及 
Onm<N, (h=1, 2,.%, LL) (3.72) 
之 下 , 极 小 化 
OCO=00t om 


妈 可 求 得 ws， 从 而 化 为 一 个 线性 规划 河 题 . 
Booth 与 Sedransk(1969) 将 上 述 问 题 化 成 方法 工 处 理 , 从 而 避免 了 


复杂 的 计算 ， 将 损失 函数 定义 为 





La - 襄 ws. (8.78) 
取 必 与 六 ;成 反比 .例如 当 忆 =2 时 ， 
Vs a 2 9.4) 





- 了 
mitp’ “ptps VF 


33.5 样本 总 量 nn 的 确定 


3.5.1 估计 的 总 体 参 数 为 了 的 情形 

当 佑 计 的 总 体 人 参数 为 总 体 均值 了 时 , 估计 量 为 yx, 设 它 的 允许 的 最 
大 方差 为 六 (或 规定 葛 绝 对 误差 限 为 ,一 Vw2), 对 某 种 已 确定 的 祥 本 
量 分 配 : 


mW R=1, 中， 五 )， (3.75) 
根据 定理 3.3, 3 的 预期 方差 为 
VG) -二 总 下 有 -二 癌 WS 
和 





于 是 对 给 定 的 本， 四 
.2 WI/a0n 
机 二 一 各 


es T 《3.76》 
V+ 名 WhS3 
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可 取 m 的 一 次 近似 值 为 
m=- 小 享 Bist. (8.77) 


车 mo/W 不 能 忽略 , 则 进一步 计算 





-一 一 于 一 一 2 -. (38.78) 
1+WF 总 WaSs 


特别 对 比例 分 配 的 情形 , ws 一 到 ,代入 (38.76) 式 ,得 


=— fl, 《3.79) 


此 时 车 先 计 算 
m= 记名 W584 (3.80) 


Rn (3.81) 





对 Neyman 最 优 分 配 ,一 -六 生 -， 代 入 (3.76) 式 ,得 


gg 
站 me 9) . C3.82) 
+ 训导 WhS? 
在 需要 考虑 各 层 费 用 不 同 前 情形 ， 对 于 简单 的 钱 性 费用 函数 及 相应 
的 最 优 分 本 形式 、 当 六 给 定时 , 从 
E, WESE LW 
7- 训 -mm 名 ~ 六 
_ WESE ,EWS Ws? 
加 WaSa/ Nos F N 


-LEW Vm ) (BW 而 - 琶 Ts， 


nC— 





出 此 可 解 出 
(WS Vo (PWS Von) 
nn 


VT TSN 
而 当 总 费用 OQ 给 出 时 ， 由 于 此 时 最 优 分 配 的 每 层 样本 量 已 由 (3.84) 


(3.83) 


88.5 祥 本 总 量 ” 的 确定 ?7 


式 给 出 , 从 而 着 样本 量 
DW/ Ve 


"(0 Sm 
例 8.6 考虑 如 表 3.9 所 示 的 工 =2 的 分 层 总 体 : 
表 83.9 





在 Ha EE on 





1 DO.4 10 4 
2 oO.6 20 
设 费 用 务 数 日 一 时 om 求 使 疡 (go) 一 1 所 需要 的 按 最 优 分 配 的 mz 与 na 


《 取 fc 一 了 ). 
8 WaSs _ 0.4x10 ，0.6x20 
解 如 和 可 一 十 一 有 2+4—6. 








故 最 优 分 配 为 
nm 6 3 nn 6 3 
由 《8.88) 式 , 当 fpe~1 时 ; 思 机 48 叶 克 可 忽略 不 计 ， 
am 声 ( 导 sse ( 守 了 PSwVa。 
根据 题 意 , 广 一 1， 鹤 
n—(0.4x10x2140.6x20x8)x6-44x6-264, 
办 而 R88, ma—176, 
此 时 总 费用 为 
C88x4+176x 9—1936. 
藻 现场 实 味 调查 费用 必 = 2, 的 一 13， 则 为 达到 原先 要 求 的 六 = 二 调 
春 费 用 必须 适当 增加 ， 若 按 原 样本 旦 分 配 , 则 调查 实际 费用 为 
O'~88x2+176x12—2288. 
著 重 新 进行 最 优 务 配 , 此 时 需要 的 最 小 费用 可 计算 如 下 
最 优 分 配 时 ，(+ 轩 -了 于)(O 一 oo) 达 到 极 小 信 ( 导 Wy8%V5)? 


了 ES 可 怎 赂 不 计 ,了 一 1 放 需 要 的 最 小 费用 为 ， 
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OO 一 (TS 区 2= (0.4x10 x~ 2 二 0.6x20X 


ME)*- 2230. 


这 相当 于 新 的 最 化 分 配 避 一 134，m4 一 164[ 由 《3.84) 式 ]， 按 殿 、 专 
计算 出 的 实际 费用 (2286) 比 理论 上 的 最 小 费用 (2380) 稍 大 ， 这 是 由 于 在 


计算 忆 .m2 过 程 中 最 后 需要 到 整数 造成 的 . 
3.5.2 估计 的 总 体 参 数 为 了 的 情形 





当 各 要 估计 的 总 体 参 数 为 总 体 总 和 卫 时 , 估计 量 为 下 .一 ass 设 公 
是 分 。 允许 的 最 大 方差 , 则 将 矿 一 广 /NW? 代入 3.5.1 有 段 中 的 有 关公 式 ， 目 


可 得 到 需要 的 结 困 .以 下 仅 对 主要 情形 列 出 相应 公式 . 
对 给 定 的 分 配 形 式 (m4 一 noo) 有 
SE NESE/20n 
”TS 





Noyman 最 忧 分 本 
(BE NS): 


比例 分 配 ; 
NE WaS 


Lr 
VN 
i 





EE 
mo BP WaS 和 ?了 


《3.85》 


- 《3.867 


(3.87) 


(3.88) 


(3.89) 


(3.90) 


33.6 对 总 体 比例 (百分率 ) 的 分 层 随 机 抽样 
前 面 几 节 的 结果 都 可 以 直接 用 于 对 总 体 比 例 (或 百分率 ) 忆 估计 的 分 





屋 抽 样 。 在 这 一 节 中 ， 仅 列 出 主要 结果 以 便于 使 用 ， 
J 一 n/ma， 其 相符 号 与 前 儿 节 相同 . 


其 中 PP 一 A/N 


中 3.6 对 总 体 比例 (百分率 ) 的 分 层 随机 抽样 7 


3.6.1 估计 量 及 其 方差 














总 体 比例 也 的 分 层 估计 为 ; 
Wps. 

Pu Wp (3.91) 

它 是 了 的 无 仿 信 计 ， 将 的 一 -本 于 了 Pu 代入 (3.6) 式 , 即 有 
CD)- 亲 吾 -加 全 全 (3.92) 

“和 PE Ns) 
-EE -fp). 8.99) 
对 比例 分 本 情形 。 

er 一 六 -去 p22 (3.94) 
ro -3 (8.95) 





当 用 样本 数据 估计 上述 的 万 Co) 时 ， 可 将 -起 竹 代 芝 上 面 公式 中 
的 部 钨 ， 所 得 到 的 千 果 是 (pu) 的 无 信 信 计 .， 


3.6.2 最 优 分 配 


对 于 简单 的 线性 费用 函数 
0O= oo 二 Chy 





最 优 分 配 满足 
mo Ny YT YE N, VBA, (3.96) 
从 而 
nV Pe /on 
Ty 一 匆 DE J (8.97) 


3.6.3 分 层 和 最 优 分 配 精度 上 的 得 益 
准 于 在 实际 问题 中 ， 不 同 层 的 Ps 以 及 PQ 一 般 不 可 能 相差 很 大 
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(特别 是 Pueu), 因此， 根据 8 3.4 的 讨论 ， 对 总 体 比例 的 估计 ， 考 虑 分 层 














以 及 最 优 分 配 在 精度 上 的 香 益 不 会 十 分 显著 ,当然 , 由 于 其 他 考虑 , 在 这 
种 情形 , 分 层 仍 是 常 被 采用 的 技术 . 
下 面 是 对 一 个 虚拟 的 总 体 来 说 明 对 于 比例 仿 计 的 分 层 随 机 抽 样 ( 比 
例 分 配 情 形 ) 与 相同 样本 量 的 简单 随机 抽样 精度 上 的 比较 ， 其 中 总 体 分 
为 三 层 , 层 权 都 为 TI/3. 
这 3.10 一 个 记 氢 的 总 体 分 层 随 机 抽样 与 简单 随机 抽样 比例 估计 的 精度 比较 












简 和 于 机 抽样 从 层 隧 机 抽 桩 (比例 分 本 ) 设计 效应 | 分 后 抽 样 相对 精度 


—P9 frr (pw) 一 二 全 Pa 
0.25 0.2433 
0.25 0.2233 
0.25 0.1900 
口 .85 0.3483 
表 8.190 中 考 虚 元 种 Ps 不同 的 取 值 ， 总 体 卫 都 为 0.5， 我 们 看 到 当 
各 层 的 PP, 在 0.8~0.7 之 间 时 , 按 比例 分 配 的 分 层 随 机 抽样 下 对 于 简单 
随机 抽样 精度 提高 不 多 .后 两 种 情况 , 精度 虽 有 较 净 显著 的 提高 , 但 在 实 
际 问题 中 又 不 天 可 能 出 现 这 种 情况 . 
我 们 再 对 田 一 个 虚拟 的 总 体 来 比较 最 优 分 配 与 比例 分 配 的 精度 、 总 
体 由 两 层 组 成 ， 二 ;一 全 s 一 1/3, 其 中 第 一 层 的 Pi 一 0.5, 天 3. 坟 给 出 
不 同 的 Ps 值 最 优 分 配合 计量 的 方差 Foot 与 比例 分 配 居 计量 方差 玉 pmp 
的 比 . 
表 8. 志 ”一 个 庶 拟 的 总 体 最 优 分 配 与 比例 分 配对 比例 估计 的 糖 过 比较 


Pa | O40.6) 0.300.7) 0.3(0.8) 0.1(0.9) 0.05¢0.95) 








1 一 7 



















二 





Pops/ Pprop | 1.00 0.998 0.988 0.941 0.866 


从 表 3.1I 中 可 见 到 ， 只 有 当 Fe<0.1( 或 Pa>0.9) 时 ， 最 优 分 配 才 - 
有 较为 显著 的 得 益 . 

不 过 , 当 考虑 的 比例 在 各 居中 的 数值 Ps 很 小 时 ，B 数值 本 身 (特别 
是 它 的 相对 变化 > 和 了 PuQx 值 都 可 能 厚 较 大 的 变化 〈 例 如 在 0.05~9.001 
范围 内 变动 ), 此 时 采取 分 层 以 及 分 层 中 芍 最 优 分 配 则 是 值得 的 . 


3.6.4 样本 量 的 估计 
设 玉 是 全 计量 ps 的 最 大 允许 方差 , 则 当 玉 , 部 比较 大 , 使 
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Ni Ns~—1 
时 , 总 样本 量 和 可 按 以 下 公式 估计 ; 
比例 分 配 情形 : 
mo— PW PQ TY, (3.93) 
车 mo/ 不 能 忽略 ， 
Yo 
一 ， (3.99) 
” 1+ 澡 
最 优 分 配 情 形 : 
m= BWV PE/Y, (3.100) 
车 me/ 不 能 忽略 ， 


2 一 一 全 一 一 一 一 - 《3.101》 
1+ Wy 六 WP 


在 计算 时 , 都 需要 对 Ps 作 预 完 的 估计 . 


§3.7 分 层 技 术 的 充分 利用 


3.7.1 层 的 移 造 


分 层 抽 样 的 一 个 主要 优点 是 估计 量 的 精度 较 高 ， 为 了 充分 利用 分 屋 
在 精度 上 的 得 益 , 需要 考虑 如 何 来 构造 展 ， 鲁 如 一 项 全 国 性 的 调查 , 如 果 
对 省 (直辖 市 .自治 区 ) 需 要 抽样 , 那么 为 提高 精度 , 应 将 全 国 30 个 省 (市 、 
自治 区 ) 进 行 分 层 ,这 里 的 分 层 实 际 上 即 是 分 类 .我 们 可 以 将 全 国 所 有 省 
《市 .自治区 ) 按 经 济 .文化 发 达 的 程度 进行 分 类 ， 例 如 利用 聚 类 分 析 方 法 
根据 多 种 指标 将 它们 分 类 , 以 类 作为 层 . 

在 本 小 节 中 ,我们 着 重 老 虑 当 镑 一 个 指标 分 县 时 , 层 的 构 闭 方法 前 
已 提 到 , 此 时 最 有效 的 方法 是 按 调 查 指标 多 前 数值 分 ， 需 要 确定 的 是 层 
河 的 分 点 . 

设 总 体 需 分 成 工 层 , 其 中 yo、 gs 分 别 是 多 的 最 小 与 最 大 可 能 值 ， 设 
欣 达 <<… Yr-1 是 确定 层 的 荆 一 I 个 分 点 ,我们 的 目标 是 在 各 屋 样 本 量 
分 配 原 则 已 定 的 情况 下 ， 如 何 确定 gz, ga， …，%z-x 的 值 ， 使 估计 量 的 方 
差 玉 (ww) 达到 极 小 。 护 ，sa，…，sz-x 称 为 靶 的 最 优 分 点 《optinmama 
points of stratification) 。 

















E23 第 和 草 分 层 独 笠 
我 们 首先 讨论 比例 分 配 情形 ， 根 据 (3.22) 式 , 此 时 估计 量 的 方差 为 。 
Vion— 2 WS 
于 是 最 优 分 点 的 确定 等 价 于 极 小 化 。 
真 msicc 癌 msi= 总 党 CFw 一 7 
一 如 (ea Yh NaF?), 
式 由 "是 在 所 有 Rn 都 比较 大 时 具有 的 性 质 ， 由 于 富 澡 卫 是 常 教 
孝 最 优 分 点 的 确定 等 价 于 极 痰 化 
7 了 8 (3.102) 
为 求 如， 假定 其 余 分 点 都 园 定 ， 注 意 到 在 (8.103) 式 中 幼 仅 对 
了 Ba 与 Yh4a/ Nts 两 项 有 影响 .由 于 惫 是 最 优 分 点 , 故 以 下 两 式 成 立 : 














PE Ph CF)? (Fa h)? 
+ 生生 全 +， (3.108) 
PE Ph (Var), (Pana)? 
Ny Na tl (3.104) 





其 中 吸 与 城 是 紧 挨 着 咏 的 两 个 单元 的 值 ，、 当 如 : 和 Nisa 都 比较 大 时 ， 
《3.108) 与 (3.104) 两 式 分 别 可 简化 为 : 
(Pat Py) (Fant Fy — 2yh) >0, 
Par — FY Fart Pa — 29) >0, 
或 雪 二 南 ( 了 十 囊 rD， 赤 > 去 (Z 二 Fora) 
因此 1 
忽 久 寺 (YatPar) (Bl, 1) (3.108) 
当 各 层 样本 量 的 分 配 是 Neyman 最 优 分 配 时 ， 根 据 (3.36) 式 , 情 计 
量 药 方差 为 : 
1 2 4 和 过 2 
Jam 一 荆 (各 ws) 一 专 次 ms 
落 六， 都 很 大 , 从 而 1/NW，、 1/W 都 可 忽略 情形 ， 与 前 面 类 似 的 证 明 方法 , 
可 得 最 优 分 点 忽 满足 
十 吕 —P)’ pe Sist (yn— Prta)? (hl, 2 1, D1) 


» B41 





(3.106) 
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从 侣 :10 四 与 (3.106) 可 见 ， 最 优 分 点 级 ,3 ,gz-: 是 一 组 方程 
的 解 ， 由 于 了 了，、 5% 部 与 加 有 关 , 因此 要 解 这 组 方 和 者 是 十 分 图 难 竟 ,必须 
通过 复杂 的 选 代 才 能 实现 . 


为 此 , 许多 作者 提出 一 些 近 似 但 快速 的 求解 法 ， 下 面 是 Dalenius 与 
五 odgea(1959) 提出 的 方法 - 

对 于 Neymam 最 优 分 配 情形 , 目标 是 使 对 Ys53 极 小 化 ， 设 多 的 略 
数 分 布 为 j(y) .在 给 定 的 层 中 , 将/《) 近 似 看 作为 常数 ， 即 是 服从 均 公 


分 布 欧 , 此 时 
Wf (ys 1)) (3.107) 
局 一 3 -); (3.108) 


~ 总 W 后 2 高 有 -wp 和 训 (- 帮 - (3.109) 
其 中 2x 是 直至 加 的 MFC 明 累 积 和 ， 
一 人 Fa (3.110) 
容易 证 明 当 4 一 Zz 都 相等 时 , (3.109) 右 端 达到 极 小 、 由 此 可 见 , 只 要 
了 9) 已 知 , 就 可 按 MYCV) 的 累积 值 来 确定 分 点 ， 选 择 这 样 的 。， 使 累积 
和 MF) 等 分 中 可 ， 故 这 种 方法 称 为 果 权 YY?(y) 法 . 
例 8.7 下 3.12 是 某 闻 区 工薪 阶层 户 月 人 均 收 入 的 舌 数 分 布 ， 欲 
将 它 分 为 五 一 7 层 , 求 层 的 最 优 分 点 . 
根据 表 3 .过 最 右 列 , 黑 积 /了 值 为 683.4557, 窝 将 它 7 等 分 ， 间 虑 
应 分 683.4557/7 一 97.6365， 于 是 得 6 个 理论 最 优 分 点 的 累积 /了 值 及 
最 楼 近 的 (实际 ) 分 点 如 表 3.18 所 示 . 
Singh (1971) 建 议 用 累积 .P%( 法 )。 在 一 定 假定 下 ， 可 以 证 明 对 一 
般 的 累积 了 7? 法 (2<<wm<3), 方差 具有 OCL-?) 的 收敛 速度 ， 比 较 合理 ,在 
ac [2，8] 中 , 保守 地 看 , 到 一 1/3 最 使. 
上 述 讨论 是 以 调查 指标 多 的 分 布 为 基础 的 , 在 实际 情形 由 于 yg 未 知 , 
这 个 假定 是 不 现实 的 、 通 常 以 与 Gy 组 性 密切 相关 的 另 一 辐 助 变 重信 的 分 
布 代替 多 .例如 在 车 辆 运输 量 的 调查 中 , 多 是 需 调查 的 返 量 或 周转 量 , 由 
可 了 到 多 为 车 辆 的 吨位 ( 载 货 汽车 情形 ) 或 客 位 ( 载 客 汽车 情形 ) 的 分 布 来 
确定 层 的 最 优 分 点 . 
另 一 个 与 此 让 关 的 同 题 是 层 数 工 取 多 大 合适 ? 从 精度 而 言 ， 当 然 是 
五 取 大 些 为 好 , 但 这 势必 增 大 工作 量 ， 因 此 五 的 确定 既 与 当 荆 增 大 时 方 
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囊 8.12 用 黑 积 了 法 确定 层 的 最 优 分 点 





























气 序 号 | 4 7 累积 了 
1 100~150 了 2.645751 2.645751 
至 150~200 20 4.478186 了.17887 
3 200~250 78 8.831761 15.984965 
4 2350~300 156 12.49000 28.43964 
5 300 一 350 232 15.23155 48.67119 
350~"00 350 18.70829 63.37948 
了 400~450 378 19.44222 BI1.82170 
a 450~500 507 22.51666 104.3384 
9 500~550 735 27.11088 131-4492 
10 550~600 891 29.84969 161.2988 
11 E00~650 360 36.49648 196.7958 
12 650~700 1674 40.91455 237.7099 
19 TO00~150 1864 43.17407 280.8840 
14 TH0~S00 2027 45.00222 325.8062 
15 890 一 8550 1907 43.66921 369.5754 
15 850~900 I780 42.19005 411.7654 
17 900 一 850 1560 39.49684 451.2623 
18 850 一 1000 132 33.64521 A84.0075 
19 4000~1100 1502 38.75564 589.7157 
20 1100~1200 343 38 .03446 580.7762 
下 1200~1900 438 20.80865 610.2038 
22 1300~1400 352 18.76166 G36.7366 
23 1400~1500 158 12.36932 654.8293 
24 1500~1600 67 38.185353 665.8050 
25 1600~~1700 38 6.1644]4 674.5227 
26 1700~1800 9 3.000000 678.7658 
27 1800~1900 31 3.316625 638.4557 
表 3.38 











理论 最 优 分 点 的 累积 ~ 了 值 相应 的 实际 分 点 
DT .065 500 
195 .2731 650 
282.9096 750 
390-5461 900 
488.1826 1000 
535 .R102 1200 





: 表 中 的 分 组 的 组 距 不 完 金 幅 等 。 前 18 组 (人 均 月 收入 在 1000 元 以 内 的 ) 以 50 元 
为 组 距 ， 后 9 组 (月 人 均 政 入 超过 1000 元 的 ) 以 300 元 为 组 距 ( 分 组 都 是 左 开 右 闭 的 , 即 每 组 包 
新 右 端点 ,不 包括 左 端点 ). 后 省 是 前 韦 的 两 谷 。 因 此 , 从 第 19. 组 开始 是 技 ~ 如 累计 ,相当 于 
将 后 面 的 每 组 拆 成 两 组 , 而 频数 了 为 平均 分 也 的 结果 。 ， 
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差 的 减少 速度 有 关 , 又 与 当 工 增 大 时 费用 的 增加 有 关 .， 通常 在 二 者 之 靖 
取 一 个 平衡 值 ， 当 然 也 可 用 恰当 的 模型 描述 , 这 里 就 不 详细 论述 了 . 


3.7.2 多 重 分 层 

: 当 调 查 指标 作 与 两 个 或 多 个 辅助 变量 多 z，2 2，… 都 线性 相关 时 。 
为 充分 利用 分 层 的 效益 ， 就 需要 按 每 个 辖 助 变量 分 展 ， 例 如 在 进行 家 庭 
调查 时 , 可 按 家 庭 居 住 欧 地 区 .户主 的 年 龄 ,职业 .文化 程度 等 多 种 指标 创 - 
层 ， 此 时 我 们 一 般 的 做 法 是 先 按 最 主要 的 一 个 变量 分 成 大 层 ， 在 大 层 中 
再 按 第 二 个 变量 分 成 子 层 , 从 而 引 成 交叉 分 层 . 当 存 在 多 个 分 层 变量 时 ， 
这 种 分 层 方法 即 称 为 多 重 分 县 (multiple gtratificatjon) . 

在 多 重 分 层 中 , 样本 量 的 分 配 可 将 每 种 方式 的 分 层 按 茶 种 原则 和 分配， 
然后 再 将 不 同方 式 分 屋 的 分 配 结果 按 一 定 原则 进行 折衷 ， 不 过 最 简单 也 
最 常用 的 方法 是 按 每 一 放 层 大 小 成 出 例 的 原则 进行 分 本 .以 按 两 个 分 层 
变量 也 到 两 种 方式 和 分 层 为 例 , 若 按 第 一 种 方式 分 层 , 共 分 成 大 层 , 每 一 
天 层 的 层 权 为 环 % (4 一 1，3,…， BR); 按 第 二 种 方式 分 层 共 分 成 0 大 层 ， 
每 一 大 层 的 层 权 为 厂 .,Q 一 41, 3, …, 0)， 出 每 个 子 因 的 层 权 为 Wn 一 
WI 2,…， RR; 4-1, 2,…, GQ). 设 总 样本 量 :为 %, 则 太子 层 
的 样本 量 mw 一 nz. 

在 多 重 分 层 中 ,由 于 于 层 总 数 比 较 大 , 而 受 费 用 等 因素 的 限制 , 又 
不 能 取得 很 大 时 ， 就 常会 出 狐 不 能 保证 每 个 子 层 都 能 分 配 到 样本 单元 葛 
情形 、 仍 以 丙种 方式 分 层 为 例 , 车 %n< BRO, 但 %>>max(R, 0), 我 们 可 甩 
实验 设计 前 思想 来 分 配 样 本 量 、 下面 是 一 个 说 明 性 的 例子 . 

例 3.8 某 城镇 进行 货车 运输 量 的 抽样 调查 . 分 层 诛 出 一 是 按 货 车 
前 仓 位 大 小 分 , 二 是 按 车 辆 的 所 属 部 门 及 营业 性 质 分 ， 前 者 共 分 为 R 一 6 
层 , 后 者 分 为 0 一 5 层 ， RG 一 30. 若 n 一 89, 如何 来 确定 各 子 层 的 祥 本 量 

首先 我 们 将 每 个 子 层 及 行 尺 ( 按 第 一 种 方式 分 层 形成 的 大 层 ) 与 列 层 
《 按 第 二 种 方式 分 层 形成 的 炎 层 ) 的 天 小 玉 w, Was,， 刀 : 列 成 开 8.14 的 形 
式 , 其 中 车 辆 总 数 , 即 总 体 大 小 入 一 977。 然后 我 们 计算 各 子 层 , 行 屋 与 列 
层 大 小 对 总 体 大 小 的 比例 Pn 一 和 Nh/ 妇 ，P. 一 Ni./N, PP. 一 术 ./NW ,四 让 
算 %=9 时 按 比 例 分 配 原 则 分 配 纵 各 行 居 与 列 层 的 样本 量 崔 -一 2Pi.。 
了 一 9P-:。 经 过 售 入 取 整 为 zm- 与 %.t， 上述 数据 都 列 在 表 3, 基 中 。 ， 

在 确定 了 每 个 行情 及 列 层 的 祥 本 量 以 后 ， 如 何 将 它们 进一步 分 到 子 
层 中 去 呢 ? 我 们 的 原则 是 每 个 子 层 被 分 配 到 一 个 样本 单元 的 概率 为 
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下 3.14 某 城 镇 货 丰 按 两 种 方式 分 房 ,各 子 层 的 大 小 Na 











表 3. 人 5 。 菜 城镇 货车 按 两 种 方式 分 层 ,各 于 层 在 总 体 中 的 比例 及 行 层 、 列 层 样本 季 的 
分 配 











~ 

、 1 2 3 4 5 Py Ed EE 
~ 
1 5.0328 09.045 .040g 0.087 0.0164 0.2221 2 2 
2 D00a 0.0082 0.0215 0.0123 0,0132 0.0655 0.59 1 
3 0.0246 0.0143 0.0276 0.0553 CGC-.0082 0.1300 1.17 1 
4 0.0553 0.0133 0.0358 0.0184 -0.0328 0.1556 1.40 1 
5 D.0491 0.0266 0.1515 0.0246 0.048 0.2948 2.05 3 
6 0.0665 0.0154 0.0287 0.0092 0G.0123 0.13290 119 1 
EP». 0.2885 0.1228 0.306 0.2068 0.1259 

a. 2.15 111 2.75 1.86 1.18 

a. 2 1 3 2 1 4 一 全 





2 ,8.2Aaa， 为 实现 这 一 点 , 借助 一 个 呈 x 和 的 方 阵 , 这 个 方 阵 的 前 ma 行 对 
应 于 第 工 个 行 层 ， 第 四 ,二 1 行 至 ma 十 ma, 行 的 zo. 行 对 应 于 第 3 个 行 层 ， 
" 将 各 列 也 与 列 层 相对 应 ， 先 在 第 一 行 中 随机 地 独 取 一 列 , 然后 在 第 
二 行 中 在 其 余 % 一 4 列 中 随机 地 抽取 一 列 , 依 此 类 推 ， 结 加 是 在 方 阵 中 每 
行 都 有 一 个 格子 被 扯 中 ， 每 列 也 有 一 个 格子 被 措 中 ， 船 中 的 每 一 格子 所 
在 的 行列 子 层 就 分 配 到 一 个 样本 单元 本 例 中 的 一 次 抽取 结果 如 图 3 . 工 
扬 示 (图 中 的 虚线 是 wx 阶 方 阵 中 格子 界线 , 实 线 是 子 层 的 界线 ). 
熟悉 试验 设计 的 读者 立即 会 想到 , 上 述 在 %Xn 方 阵 中 抽取 % 个 格子 
芍 过 程 相当 于 在 一 个 % 芥 拉丁 方 中 随 机 地 抽 一 个 字母 (或 数字 )， 该 字母 
斯 占有 的 % 个 格子 即 是 所 需要 前 .当然 这 个 拉 了 丁 方 本 身 字母 的 排列 应 该 
其 经 过 随机 化 的 ， 这 个 概念 可 以 推广 到 一 般 的 多 重 分 层 ， 便 如 按 三 种 或 








多 3.7 分 层 技术 的 充分 利用 az 






















1 
1 
x| 1 


-一 
3 
1 
: 1 2 1| 9» 
' 


图 3.1 
更 多 种 方式 分 层 的 类 似 沙 又 可 借助 m 阶 正 交 拉 丁 方 来 完成 . 
在 确定 了 在 哪些 子 层 内 需要 抽取 样本 后 ， 具 体 方法 则 是 在 子 层 肉 进 
行 随机 提取 (如 果 分 配 的 祥 本 量 不 止 一 个 , 即 可 用 简单 随机 抽 祥 )- 此 时 一 
个 在 太子 屋内 抽取 的 样本 单元 被 抽 到 的 概率 与 Pw/na.n 成 比例 四 天 
是 不 等 概率 的 , 不 过 当 每 个 .Pu 守 ma.n.i/m? 时 ， 其 概率 是 近似 相等 的 ， 雁 
有 在 此 时 ， 料 本 均值 可 作为 总 体 均值 的 估计 ， 棒 则 ， 应 按 不 等 概率 狂 样 
《人 参见 第 5 章 ) 方 法 处 理 ， 守 于 方差 佑 计 , 只 有 当 ?3>3 max( 有 ,0) 时 ， 也 
邯 在 每 个 行 层 与 列 层 中 至 少 有 两 个 祥 本 单元 时 才能 进行 . 


















































3.7.3 每 层 只 抽 一 个 单元 时 的 方差 估计 


在 3.7.2 段 讨论 了 内 于 多 重 分 层 ， 层 数 很 多 丽 样 本 量 较 沙 时 的 抽样 
闻 题 ， 在 本 段 讨论 的 同 题 与 上 述 也 有 一 定 联系 ， 假 定 在 每 一 ( 子 ) 层 中 内 
朱 取 一 个 单元 ， 硒 此 情形 ， 我 们 仍 可 用 3.2.3 段 中 前 一 般 公 式 来 估计 
总 体 目标 量 ， 但 此 时 方差 镶 计 就 不 能 接 那 里 的 方法 进行 了 ,因为 对 于 
rz 一 区 无 法 计算 层 内 的 样本 方差 台 ， 但 我 们 可 以 用 层 间 全 计量 的 差异 来 
估计 方差 . 为 方便 起 见 , 我 们 仅 对 总 体 总 和 的 估计 人 a 的 方差 进行 讨论 - 

在 抽样 前 将 所 有 层 分 成 商 两 一 组 或 数 层 一 组 ， 在 层 数 荆 =2G 一 一 妇 
为 偶数 的 情形 , 以 两 层 一 组 为 宜 , 共 分 9 组 ， 设 第 ; 组 的 两 个 样本 观测 入 

-为 gas 则 两 层 总 和 的 估计 分 别 为 ， 
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Pn = Ny, Dp — Nigias C3.111) 
其 中 Wi 与 We 分 别 是 这 两 屋 的 大 小 ， 令 
oP — EP)» (8.112) 


将 它 作为 玉 ( 拿 .9) 的 一 个 估计 为 求 它 的 均值 , 考虑 将 作 #- 全 表 成 : 
PnP (Fa—Y)+ (a Fn) (DF), 
平方 后 青 求 均 值 , 所 有 的 交叉 乘积 项 沸 为 零 , 于 是 有 
HP Dm Fa—F sa) tt NI Byn Pn) + NIB (ya— Fs) 
Yan—Ya)?+ NNna— SY + Ns Nsa— 1) S32, 
部 
BIv P= SF Ys +N Na DS + Na( Ns—1)S%] 


一 训 (CFa- 了 m+ 高 NCNs — LOB 
Fa) tr Pe). (3.113) 
下 式 表 明 ， 作 为 (六) 的 估计 ，e(P) 是 有 偏 的 ， 偏 倚 为 
旦 Cr 了 To 因此 我 们 在 分 组 时 , 应 将 层 和 居 计 相差 不 多 的 层 作 为 一 


-组 , 以 入 可 能 减少 偏 倚 . 
当 王 不 为 侦 数 时 ， 就 必须 考虑 每 组 层 数 五 关 2 的 一 般 情 况 。、 此 时 

VC 艰 ,) 的 估计 可 取 为 ; 
VP -TT (PD). .1 

可 以 证 明 
Bt-V P+ (Fn). 
(8.115) 
因此 分 组 原则 仍然 是 同 组 内 的 展 和 人 意 接 近 愈 好 ， 当 所 有 的 妞 =2 时 ， 
《3. 生 4 与 (3. 坟 5) 式 分 别 简 化 为 (3.113) 与 (3.113) 式 . 

上 述 方法 在 文献 中 常 称 为 “ 析 层 ” 法 《the method of “collapsed 


Bdrata”) ， 
3.7.4 事后 分 层 
在 分 层 抽样 中 ， 一 和 最 的 必须 在 抽样 前 就 将 总 体 中 的 全 部 抽样 单元 分 














本 3.7 分 层 技 术 的 充分 利用 Bd 


好 层 . 如果 事 先 分 屋 有 困难 , 璧 如 说 缺少 总 体 单元 按 层 的 抽样 框 或 因 轧 太 
天 事 尘 分 刁 太 费事 ， 或 调查 前 每 个 单元 属于 哪 一 层 不 清楚 等 等 情形 ， 若 
要 利用 分 屋 抽样 的 优点 , 就 应 采用 对 样本 的 事后 分 层 Cpostistratification》 


技术 . 
事后 分 层 是 先 用 简单 随机 抽样 从 总 体 中 抽取 一 个 样本 量 为 nw 的 样 


本 ， 然 后 再 对 样本 中 的 单元 按 菜 些 特征 进行 分 层 ， 灌 记 属于 第 层 的 单 
元 数 为 mw( 议 m 一 mn), 风 上 只要 邢 ，。~NWMN 可 通过 其 他 途径 得 到 ， 列 对 总 


体 均 信 了 的 事后 分 层 可 合计 为 : 














一 荆 一 、 

3 Wayy - (3.116) 
其 中 1 

i (3.117) 





为 求 yau 的 方差 , 首先 注意 到 在 ms 固定 目 都 大 于 0 的 条 件 下 ，{ywi。 
一 2 …， 石 ) 可 看 成 是 独立 的 从 各 层 中 抽取 的 简单 随机 禅 
本 ,事实 上 ,不妨 设 一人 以 事件 4 玫 示 “在 第 工 层 中 抽 到 ys …, Ym” 
事件 旦 表示 “在 第 2 层 中 儿 到 ya， -…， ym B' 表示 "在 第 3 层 中 抽 到 


ma 单元 ” 出 
1 
P(AIB)~ AB) 一 zz] 1 
MA (nm) 
1 


(0 ) 
故 有 PCAIB)- PCAIB) -1 .. 


这 表明 在 第 工 层 中 捕 到 yn, …, yum 的 概率 与 在 第 2 层 中 哪 m 单元 被 摘 
到 无 关 , 同时 也 说明 {yu …, gam} 可 看 成 是 从 第 1 层 抽取 的 简单 随机 样 
本 .因而 在 mm 固定 且 嵌 大 于 0 的 条 件 下 , 有 


一 Ea 
(By 一 畔 -了 于 一方 于 了 8 (8.118) 








同 理 可 证 PLAIB)= 


其 中 
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他 工 茹 一 到 )2 
CT (3.119) 
定理 3.9 ” 当 充分 大 时 , 事后 分 屋 信 计 重 Bo 及 其 方差 三 (和 有 
人 性质。 
1) BOypst) = PF, (8.120} 
了 工 一 a 
号 思 [V (gp)] 必 大 时 全 w+ 二 守 (1 一 WS 


n 








(3.121} 
证 明 ” 当 "n 完 和 分 大 时 , 可 以 认为 mm>>0 级 一 2, 工 )， 注 意 到 当 


加 定时 ， 为 是 了 的 无 偏 估计, 因而 _ 
加 (jw) 一 性 Wh 加 (34) 一 昱 和 至 [ 权 (加 mm 固定 )] 


-BPWP -7Y. 
Setphan(1945) 证 明 丁 以 下 的 鲁 果 : 





11_ 1 ,1-W. 1 
至 mm ny + 二 +0( 直 ). (3.122) 
因此 对 大 的 %, 有 
. 11 1 1-_W, 
下 寺 ]= 二 -+ 





从 而 





加 [VO9rn)]J 于 加 Wn I 一 WS 一直 导 WaSh 


一 WS 





Vo to D1 WSR. (3.128) 


7 

甚 中 第 一 项 妈 是 比例 分 配 分 层 抽 样 估 计划 的 方差 ， 而 第 二 项 刚 表 示 因 事 
后 务 层 引起 的 方差 的 增加 量 。 由 此 可 见 , 当 ”足够 大 时 , 事后 分 层 的 精度 
相当 于 比例 分 配 事 先 份 层 的 精度 . 

事后 分 层 技术 有 重要 的 实际 意义 ， 在 许多 实际 问题 中 经 常 需要 按 不 
疗 分 类 的 统计 数字 , - 若 采用 事先 的 多 重 分 层 方法 ， 困 难 较 大 ， 而 且 实 际 
上 也 不 需要 每 个 玫 层 的 估计 .于 是 可 对 一 个 从 总 体 中 抽 歌 的 简单 随机 样 
本 按 每 一 种 分 层 方式 进行 事后 分 层 。 只 要 按 每 种 分 层 的 总 体 数 (或 层 权 ) 
已 知 , 即 可 获得 按 这 种 分 类 的 事后 分 层 居 计 量 . 另 一 方面 , 从 原则 上 说 , 可 
后 分 层 也 可 用 于 按 某 一 种 (或 两 种 ) 事 先 分 层 , 但 严格 比例 分 配 的 样本 . 因 
为 这 种 样本 与 简单 随机 样本 一 样 ,是 自 加 权 的 , 总 体 中 每 个 单元 被 拙 中 的 
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往 率 都 相等 - 


3.7.5 定额 搞 和 祥 

在 社会 调查 诸如 民意 测验 、 市 场 调查 中 , 有 时 采用 这 样 一 种 快速 调查 
方法 . 将 调查 对 象 技 性 别 、 年 酸 段 、 职 业 、 受 教育 程度 等 分 类 ， 事 先 按 比例 
分 配 确 定 每 一 组 对 象 需要 调查 的 样本 量 . 实际 调查 时 并 不 使 用 抽样 框 进 
行 严格 的 随机 抽样 , 而 是 在 一 定 范围 内 抽样 , 将 抽 到 的 每 个 对 象 纳入 适当 
的 层 中 , 直到 每 乃 都 达到 所 禹 的 样本 量 mw， 为 止 ， 这 就 是 所 谓 的 定额 抽样 
(quota sampling) . 

由 于 各 层 镁 本 量 都 已 事先 固定 ， 所 以 由 上 一段 中 关于 各 层 子 样本 的 
独立 性 与 随机 性 的 说 明 可 知 , 如 上 在 具体 抽样 时 是 完全 随机 的 (在 整个 总 
体 范围 内 )， 则 定额 手 样 实质 上 相当 于 分 层 随 桃 抽样 . 不 过 在 实际 抽样 
中 ,往往 只 是 在 一 个 较 小 范围 内 进行 , 而 不 是 在 总 体 范围 内 进行 ， 因 此 ， 
定 禾 抽 样 在 每 个 层 内 的 抽样 或 多 或 少 地 带 有 某 种 非 随 机 性 ， 所 以 通常 的 
定额 抽样 并 不 是 一 种 严 衬 的 概率 抽样 ， 因 而 常 遭 到 非议 ， 关 十 定额 抽样 
与 概率 抽样 的 比较 ， 有 兴趣 的 读者 可 参考 Stephan 与 MeOarthby(1958) 
的 文章 . 

定额 抽样 在 实施 过 程 中 的 实际 工作 量 比 一 般 想 每 的 要 大 ， 因 为 越 往 
后 , 抽 到 “无 用 ”样本 的 可 能 性 越 大 、 也 毁 当 抽样 到 后 面 阶段 时 , 大 部 分 被 
扫 到 的 单元 可 能 是 属 子 早 己 满 铬 的 那些 层 的 , 而 这 些 单元 只 能 弃 之 不 用 ， 
这 反 过 来 会 促使 调查 者 有 意 去 挑选 指定 层 的 单元 ， 而 这 又 破坏 了 随机 性 
的 原则 . 

因为 “定额 ”通常 是 按 比 癸 分 配 的 , 因此 , 定 御 抽样 所 得 的 样本 可 以 看 
成 是 自 吉 权 韵 。 从 而 它 的 数据 处 理 非 常 简单 ， 这 也 是 它 在 简单 而 快速 的 
调查 中 , 受到 欢迎 而 乐于 被 采用 的 主要 原因 . 
































33.8 用 于 分 层 的 二 相 抽 样 


3.8.1 层 权 误 差 对 分 层 估 计 的 影响 

远 今 为 止 ， 我 们 都 假定 层 权 矿 ; 是 已 知 的 。 如 果 下 未 知 而 又 不 能 
镑 精确 地 估计 时 , 将 对 分 层 估计 量 带 来 严重 的 影 顺 . 

设 使 用 的 层 权 是 分 5 采用 以 下 的 估计 
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辫 - 玉 Wy 
此 时 会 不 再 是 无 信 的 , 其 偏 伴 为 层 (W5 一 Fs 了， 而 且 它 不 因 n 的 增 大 
而 减 小 、 这 就 是 说 , 此 时 全 不 再 是 一 个 可 用 的 估计 量 . 拿 的 均 方 误差 
为 : 














MSB(P) = EL fa) + [EV WYP? 
因此 当 本 * 有 误差 时 ， 因 分 层 在 精度 上 的 得 益 将 随 震 w 的 增 大 而 迅速 志 
失 ， 当 超过 一 定量 时 ， 分 层 信 计 的 均 方 误差 就 可 能 比 简单 随机 抽样 的 
简单 估计 的 方差 还 权 大 . 
网 3.9 省 诬 一 个 外 的 简 间 间 体 ， 信 为 机 展 ，TPe 一 0.9， Is 
0.1. 恨 定 辜 一 恒 - 8%， 又 丽 , 都 很 大 ， 根 据 (3. 寻 ) 式 , 有 
str Py 
=S+ WP -FY+ WF 7) 
SY+WiPr— WP — WaoFo) tH Wa Fs — WP — WF)? 
— 8%+WiWs(P, — Ps), 
即 工 一 及 多 十 0.09( 王 :一 了 >)2. 
若 令 玩 : 一 sl, 则 B55 一 0.91, 因此, 当 层 权 正确 时 , 按 比 例 分 配 的 分 层 
手 样 估计 量 的 方差 比 简 单 随机 抽样 减少 0.09; 车 令 了 ,一 了 :一 3, 风 各 一 
0.19, 此 时 分 层 抽 梯 的 方差 比 简 单 随机 抽样 的 方差 减少 0.81， 后 者 因 分 
层 而 在 精 府 上 的 得 益 比 前 者 为 高 . 
现在 考虑 用 不 正确 的 层 权 ， V4 与 Wo; ， 偏 储 可 以 写成 
EM WP Wi- WIP+ (Ws— Ws)Ps 
= Wi— WP: ~ (Wi ~W)Y, 
(Wi WP 7;). 
设 WI 一 0.93， Ws 一 0.08, 则 上 述 两 种 分 层 抽样 与 简单 随 宙 抽 样 可 作 如 
下 的 比较 : 
分 层 随机 撒 樟 工 
B—0.02, MSE= 


分 层 随机 抽样 IT 
B-0.06, MSE- -0.29 .+0.0086; 














人 上 0.0004 
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简单 随机 抽样 : 
-0，MSE- 工 . 
对 不 局 的 ?2， 均 方 误差 MSE 的 什 见 崎 3.16. 从 表 中 可 堵 出 , 对 不 正 
确 的 层 权 ,m 您 大 , 精度 损失 愈 大 , 且 对 高 效 的 分 层 , 损失 更 大 ， 
类 3.16 层 权 不 正确 时 分 层 随机 抽样 均 方 误差 的 比较 
™ 简单 随机 抽样 分 层 抽 样 了 ( 低 效 ) 


50 0.0200 0.0186 
200 0.0050 0.0049 
6.0025 0.0027 





分 层 抽 样 II( 襟 效 》 

0.0074 
0.0045 
0.0041 















3.8.2 二 相 抽样 及 估计 量 均值 与 方差 的 一 般 公 式 

如 果 层 权 未 知 ， 如 柯 正 确 应 用 分 层 技术 呢 ? 此 时 一 个 可 以 规 代 的 办 
法 是 先 从 总 体 中 抽取 一 个 相对 比较 天 的 简单 随机 样本 ， 对 这 个 妊 本 并 不 
需要 测定 样本 单元 的 指标 导 , 而 仅 是 将 单元 按 分 层 特性 进行 分 类 , 也 即 兰 
定单 元 所 属 的 旦 .因此 攻取 这 个 第 一 相 样 本 (the first phase sample) 的 
目的 仅 是 为 了 估计 层级 琴 *. 然后 在 第 一 相 样 本 中 按 分 层 负 料 抽 取 一 个 相 
对 比较 小 的 子 样本 一 一 第 二 相 样本 (the second phase gample)， 对 这 个 
子 样本 作 实 际 调查 ， 测 定 其 中 每 个 单元 的 指标 值 ， 再 按 一 般 分 层 抽样 的 
方法 作出 总 体 目标 量 的 估计 ， 这 就 是 用 于 分 层 的 二 相 抽 笠 (tmo-phase 
aaropIing), 也 称 二 重 拍 样 (double sampling). 

二 模 抽 样 也 可 以 用 于 其 他 目的 ， 二 祖 抽 样 中 的 第 一 相 样 本 都 是 汶 了 
获得 估计 所 需 的 有 关 总 体 的 辅助 信息 ， 而 第 二 相 样 本 是 从 第 一 相 样 本 中 
抽取 前 子 样本 ， 才 是 用 来 作 实际 调查 的 ， 作 二 相 抽 样 前 日 的 是 为 了 提高 
估计 的 精度 .显然 , 因为 需要 朱 取 第 一 相 样本 而 耗费 部 分 费用 , 因此 第 一 
相 样 本 的 抽取 及 处 理 (例如 对 桩 本 单元 进行 分 类 )， 相 对 地 说 必须 是 廉价 
的 .由 于 从 第 一 相 样 本 中 获得 的 信息 而 使 估计 重 在 精度 上 的 改善 必须 超 
过 由 于 已 耗费 部 分 资 用 丽 不 得 不 减少 第 二 相 样 本 的 样本 量 记 造成 的 精度 
上 的 损失 .这 是 采用 二 相 抽 样 的 必要 前 提 . 

二 相 抽 样 是 一 种 二 步 抽 样 或 二 次 抽样 ， 为 了 讨论 二 相 抽样 估计 量 的 
均值 与 方差 性 质 ， 在 这 里 我 们 给 出 在 一 般 的 二 步 抽样 中 ， 估 计量 帮 的 均 
值 、 方 差 (或 协 方差 ) 的 一 般 表 达 式 、 此 时 均值 与 方差 也 必须 分. 责 步 进 
行 。 首 先是 在 给 定 第 一 个 样本 的 条 件 下 对 第 二 步 抽 样 求 均值 和 方差 ， 芬 
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史记 为 互 ; 与 了 Vs; 然后 再 对 第 一 步 抽样 求 均 值 和 方差 , 记 为 瑟 与 了 因 
诗 对 于 5 的 列 值 ,有 





HO EBAO)]. (8.1294) 
对 于 划 的 方差 或 负 .5 的 协 方 差 , 我 们 有 以 下 引 理 ， 
引 理 3.1 对 任何 一 个 二 步 抽样 ,下 烈 两 式 成 立 : 


D VB) = VHBAO)] + B[V (6)]; (8.125) 
2) Cov(B, Ba) — OoviL B20), Has)]+ BtCova(t, FW)]. 
(3.126) 


证 明 令 8= 召 (部, 风 
VD- B66-0)— BIBAO—D]. 
因为 BO -~— BO0) 一 38 B60) + 
= [Bo(B)]*+r(O) — 208 +0, 
两 边 求 如 ,注意 到 8 一 至 :[ 加 (的 ]， 即 有 
VO) = BB] + BLL)] — [EBP)]? 
=—V [BO)] + B[V2(O)]. 
从 而 (8.125) 式 成 立 ，(3.126) 式 的 证 明 与 此 完全 类 似 ， 留 给 读者 作为 综 
可 。 
引 理 3.1 也 可 推广 到 多 步 抽样 , 例如 对 于 三 步 抽样 , 有 
VO —V BB + EY BO BR el(6). 《3.197) 
引 湿 3-% 设 六 是 从 总 体 中 抽取 的 样本 其 为 w 的 简单 随机 样本 的 
均值 , 负 是 从 上 述 样本 中 抽取 的 祥 木 量 为 nw 的 简单 随机 子 样本 {yx …， 
Vl 的 均值 。 是 在 第 一 个 样本 中 省 下 的 me 一 wr 一 nz 个 半 元 (不妨 记 为 
gsry … sur) 所 组 成 的 子 样本 的 光 值 , 则 





DD VB) -BA 下 ); (3.198) 
人 a) Oov(¥’, g1—9) =0. (3.139) 
其 中 5 是 总 体 方 关 . 


证 明 首先 我 们 注意 两 个 基本 事实 ， 一 是 由 于 {4,…, yw} 是 从 第 
一 个 样本 中 抽取 的 简单 卫 机 子 样本 ， 那 么 剩 下 的 单元 {ytz，…, son 也 
可 以 看 成 是 它 的 一 个 样本 量 为 2 一 mu 一 rz 的 简单 随机 子 样本 (当然 与 第 
一 个 子 样本 不 是 独立 的 :其 次 由 于 两 步 拍 样 都 是 简单 随机 的 ， 因 此 这 两 
个 简单 随机 子 样本 可 以 看 必 是 从 总 体 中 各 接 抽取 的 简单 随机 样本 ， 于 县 


53.8 用 于 分 层 的 二 相 抽 祥 SE 





GD- A VD) FR. 


上 述 两 个 公式 也 可 根据 引 理 3.1 得 到 , 因为 
BelB) = 0 Tm si 











其 中 2 一 
所 以 从 引 理 3.1 得 
VID) =V. Bay) We 





一 了 (9) 十 全 = Bi(s’3) 


kd S24 na ga 如 一 由 局 3 








WN ran ml 
Nm 
注意 到 VY) 


另 一 方面, 又 有 
7 人 GD- 六 (全 刺 二 光 2) 


-和 PG)+ 往 (55)+2 和 RQov(5,, 3) 














3 
故 oovG 3 一 号 . 
因为 人 

收 六 (页 一 执 一 访 y2)] 

.gf Nn Nn 
nn 上 + 总) 
-( 1 _ 1 18a 
Pr We 


Oov(g’, gi— 9) 
1 Im 
= Cov [tra), ys) ] 


[rsay (C93) 一 raps Oov (1, ga) 





7 


十 吗 Oov(gi， gs) 一 同方 Cg] 一 0. 重 
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3.8.3 用 于 分 层 的 二 相 抽 样 的 估计 

用 于 分 层 的 二 相手 样 最 早 是 由 Meymant1938) 提出 的 . 落 总 体 单元 
分 层 的 原则 是 胃 确 的 , 但 晨 权 全 未知, 则 可 从 总 体 中 先 抽取 一 个 样本 量 
为 w 的 简单 随机 样本 进行 估计， 令 咪 是 该 第 一 相 样 本 中 属于 疡 层 的 单 
元 数 , 则 





EL 
可 作为 所 的 估 计 、 如 果 将 总 体 单元 属于 台 层 看 作 是 单元 的 一 种 特征 ， 
那么 wm 与 歼 * 即 是 样本 及 总 体 中 具有 这 种 特征 单元 的 比例 .因而 根据 
第 二 章 的 讨论 知 ，%o， 是 WV 前 无 伪 估 计 . 
第 二 相 抽 样 是 在 第 一 相 样 本 中 进行 分 层 随 机 抽样 ， 每 层 中 的 抽样 比 


一 登 事先 指定 ， 记 + 一遍 为 第 二 相 样 本 量 ,和 一直- 臣 如 ! 是 县 
中 第 二 扯 样本 的 均值 , 则 二 相 抽 样 对 总 体 均 值 也 的 估计 为 
吉 = 高 Ch (3.131) 


定理 $8.10 对 子 二 相 分 层 样 本 , 车 1 足够 大 , 使 每 个 xm >0， 又 二 祖 
样本 抽样 比 办 一 /中 尼 事先 指定 , 网 
1) 了 (go 一 7 (3,132) 


2) 7GaD ~- 二- 坟 )+ 于 王 各 (二 一切 . (8.198) 
证 明 “记功 是 第 一 相 样 本 五 层 中 的 指标 值 , 息 ~ 二- 划 呈 是 它 的 


均值 ， 册 于 事实 上 并 未 对 所 有 的 第 一 相 群 本 单元 进行 % 的 测量 ， 因 此 名 
是 未 知 的 , 令 


wo 一 -于 (8.180) 








Ci 
则 它 实 际 上 是 第 一 相 样 本 均值 . 对 yw 用 二 步 求 均值 法 ; 
至 《87 = BBa(yo) = BE 《这 ongn) 
= 加 这 wn Ba Y)] — 到 [名 DA] 
— By)—¥. 
从 而 :是 无 偏 的 ,为 求 ze 的 方差 , 将 它 改写 成 
9 有 














寺 3,8 用 于 分 层 的 二 相 抽样 


根据 引 理 3.1 得 _ 加 
CB) = DFT [和 一 避 ] 二 2Cov[9'， 导入 一 下 六 


VF) HVE whl — DW) +t Bal Cs 7)l 
+2 Qov[y’, Ba(B nlgs —9))] 
+2 Bi[CovaCy, 三 wn Ys — 4 
VIFEY [PD og 9 
最 后 一 个 等 式 成 立 , 是 因为 在 第 一 相 样本 固定 情况 下 ，% 是 常数 , 因而 
Oovas[3 包 0K Ya — 5)] =— 0, 
局 时 |[ 导 waC54 一 至 | 一 0、 另 外 
Vs[ ws C9 — 苏 )] 


(8.184) 





-ira 93) = 王 wi 守 一 襄 ) 


名 (Le 
宇 健 (十 sh 


这 里 i 到 go 因而 
BV sl (9 —D)] 


二 一切 本 (oa 





=- 工 到 二 一 切 琴 如 (wssiala 国定 
= 二 习 去 —1)E (wn 
-二 二 一 De3. 
而 V9) 一 (去 一 让 3 
故 从 (3.184) 式 得 到 
VG ) (+ 


(3 懈 有 多 种 表达 形式 , 根据 (3.41) 式 , 有 
CH -DS = ART NP PY. 
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记 9 (太一 w)/CN 一 1), 则 若 在 上 式 两 边 同时 乘 以 gpCwN3， 可 得 
1 _ 工 Jss- 此 ys8 也 pF)s 
EE 
将 此 式 代入 (3.183) 式 , 得 
Go) 一 肝 oSi 二- 调 ) By DS 
+ WP?). {3.185) 
通常 , (3.185) 式 中 的 第 二 项 数 信 较 小 , 可 以 忽 路 不 计 , 因而 有 以 下 的 
近似 公式 ， 
Pg) 和 WW 7). (3.196) 
下 面 讨论 (3) 的 估计 间 题 。 当 戏 与 W 都 很 大 从 而 1/ 太 与 1fw 
都 很 小 时 , 根据 (3.186) 式 , 可 得 它 的 一 个 几乎 是 无 偏 的 佑 计量 : 
(9) a (3.197) 


EE 
网 (+ 1 
~ wi 训 去 )+ (去 一 诈 ) 守 ws 一 os) 
《3.198》 


在 几乎 所 有 的 应 用 场合 ， 上 述 的 公式 都 是 够 用 的 、 然 而 当 1/w 与 
d/ 交 都 不 可 怨 略 时 , 结果 就 比较 复杂 .此 时 我 们 有 如 下 的 定理 : 
定理 83.11 对 于 分 层 二 相 抽 样 ， (ys:) 的 一 个 无 偏 入 计量 为 ; 


= le 民 “ (南齐 


















































+ 地 党 一 
Tm np 
(3.199) 
证 明 i 
五 [时 wi -大 ) 吾 [ 盏 (msglum 固定 )] 
-一 
本 -es (3.140) 
同 理 本 
ba tn 1 Ng sea Wa 工 
石 [ 艺 于 式 物 EN ]- Ea sa( 区 Ry + (3.141) 


由 3.8 用 于 分 诅 的 二 相 抽样 99 
为 求 于 加 (加 一 0 一 孕 必 下 一 下 
的 均值, 在 固定 m 的 情形 下 , 有 _ _ 
(Bt)] 
-PV 7 Ta 00v (8h, -Bi)] 
-wm [T+ 全 
-于 [P+ 让 





Pre 。 (8.142) 
再 对 ws 求 均 入, 得 到 
Bw -DTD ), (3.149) 
: mi 
而 OA 
故 








再 [ 台 如 人 坟 一 各) 汪 一 先生 半 铝 间 


4 





-WP — P+ —V Cys). 


(3.144) 





于 是 ,综合 (3.140)、《3.141) 与 (3.144) 三 式 , 即 有 


NV 马 [ 1 
BIv (Bw)] 人 一 下 Js 


斤 3 


EE 





DWP, —P)? 


一 去 ) 一 -六 人] 
科 有 GG 人 Ea V (yw)] 


a [7 G0] -Fa 


长 而 w(ge) 是 六 (9s) 的 无 偏 秆 计 . 大 


第 4 章 
比 佑 计 与 回归 估计 





前 两 章 中 ， 对 总 体 参数 的 估计 都 是 简单 (线性 ) 信 计 ， 即 对 于 总 体 均 
借 的 估计 , 在 简单 随 宙 抽 桩 中 用 的 是 样本 均值 (算术 平均 数 ); 在 分 层 随 机 
岳 樟 中 用 的 是 各 层 样本 均值 的 加 权 平 均 。 在 这 一 章 中 ， 我们 研究 一 些 比 
较 复杂 的 非 线性 估计 , 主要 是 比 佑 计 与 回归 个 计 . 此 时 , 除了 调查 指标 2/ 
外 ， 还 有 另外 前 指标 ， 例 站 2 可 以 利用 ， 和 称 为 辆 动 变量 (auadliary 
variable) 。 我 们 利用 每 个 单元 的 指标 值 了 ; 与 子 , 之 问 的 比例 关系 ， 或 
相关 关系 来 提高 对 目标 量 佑 计 的 精度 ， 在 实际 问题 中 ， 艺 ! 常 是 了 了 ; 的 前 
期 资料 (例如 上 一 次 普查 资料 ), 或 对 现 期 了 , 的 粗略 信 计 ， 或 表示 单元 规 
模 的 某 个 量 等 、 无 沦 何 种 情形 , 2 的 总 体 均值 下 或 总 和 了 下 一 般 地 必须 
是 已 知 欧 ， 


§4.1 比 估计 及 其 基本 性 质 


4.1.1 定 义 
如 果 工 :与 王 ! 之 问 存 在 着 大 致 的 正 比例 关系 ， 则 可 用 比 佑 计量 
(ratio estimator). 
定义 和 - 工 对 于 简单 随 宙 抽样 , 总 体 均值 了 与 总 和 了 的 比 估计 量 定 
文 为， 
pr 
天 - 卫 及 ~- 宇 福 ， (4 


j= 部 天 一 过 王 一 Nye. (4.2) 


其 中 9, 9, 5,% 分别 是 样本 中 与 wm 的 平均 数 与 总 和 . 
有 时 候 , 调查 的 目的 就 是 要 估计 总 体 了 与 节 的 比值 ; 


Yr 
五 - 专 一 部 ， 《4.3)》- 
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对 它 的 估计 为 _ 
好 -各 一 攻 、 (4.4) 


通常 比 估 计 是 指 x 及 人参 x， 而 让 区 为 对 比值 的 估计 . 由 于 这 三 者 之 
间 仅 相差 一 个 常数 , 故 在 研究 它们 的 性 质 时 , 按照 方便 ， 选 用 一 种 进行 讨 
论 即 可 ， 许 多 情况 下 ， 就 用 鱼 来 详 明 。 因此 本 章 中 凡是 涉及 比 估计 的 ， 
都 包括 乳 在 内 . 


4.1.2 基本 性 质 


比 佑 计 是 有 偏 的 , 但 当 样 本 量 % 增 大 时 , 偏 情 趋 于 零 。 这 就 是 说 ， 它 
是 渐 近 无 偏 的 , 也 即 当 % 大 时 , 比 估计 量 可 以 看 成 是 近似 无 偏 的 、 此 时 均 
方 误差 与 方差 也 就 近似 相等 ， 事实 上 , 我 们 有 以 下 的 绪 果 (更 精确 的 结果 
见 弛 和.2 
定理 .1 对 于 简单 随机 抽样 , 当 ”大 时 ， 














Egn) ~Y, EFA TY, BOB) ~ BR; (4.5) 
EE | 

V gr) | (4.6) 
。 HF, RR? 

VPR) DB | (4.9) 
eo > | 

V+ a Ls . (4.8) 


证 明 只 证 外 情形 守卫 Dy 三 依 4 一 入 下 及 ， 它 们 与 及 只 相 荆 
常数 因子 ， 过 相应 公式 可 以 从 有关 的 公式 直接 推 得 . 


RR--R- A, (4.9) 
当 m% 大 时 , 心 是 ， 代入 上 式 分 即 有 
有 (由 一)~ 记 全 一 2B(] -喜人 一 RE) 一 0. 


歼 当 % 大 时 , 百 ( 总 ) 之 鼠 、 此 时 


VAMSE(R)- E(R— A By— Bs)’. 


吉 - 
令 
C=T.— BX (=1,2,., N), {4.10) 
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网 
5 一 和 一 BE， G=7— RF-0, (4.11) 
BY— Rs) — Bg)— VG) 
-和 ss- 1 0, a 
TR 一 


_ Sr ax 
故 VB) ~ “人 
(4.6)~(4.8) 式 也 可用 及 ,了 ,的 方差 83.53 和 协 方差 Syo( 或 等 价 
地 , 用 相关 系数 p) 来 表达 , 因为 














NWT 7) -R(T -Fs 
一 CP) 


一 28(CF, 一 丈 )( 瑟 一下)] 
= 82+ RS — BS, 
~ AS3+ R82 —2R8p8 ,Ss 











~ P02+ 02—20,.), (4.12) 
其 中 
1 2 2 1 < a 
33" -了 ) ”~ 一 训 (2 一 证) 
(4.18) 
Bw 一 交工 宫 (Y: 一 了 ) (x1 一 (4.14) 


分 别 是 了 .下 ,的 总 钵 方差 与 协 方差 ,而 
8 避 了 一 了 )C 一 忆 
Pp 5 一 (4.15) 
V (PP) Ey 
是 了 ,与 五 ! 的 相关 系数 ， 又 
CO 一 O02— 2 











人 SEO Sw _, SuSe 
总 时 这 


分 别 是 了 ,及 互 : 的 变异 系数 的 平方 (相对 方差 ) 和 了 ,与 于 ,的 相对 协 方 
差 , 于 是 当 ”大 时 ， 
VCD Tt (S32 R292 — 3RpS so) 


(4.16) 
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= LLRs+ O20). (4.19) 
类 似 的 , 有 





VV)S 二 (8S3 十 再 283 — 2RpS yo) 
— LL Pe(08+08 20%): (4.18) 
VO HD (gs RrSs— Rpg,8.) 
-Ysa0w). (4.19) 


鉴于 这 三 个 估计 量 的 方差 与 被 估计 量 的 平方 只 相差 同一 个 常数 到 
子 , 故 它们 的 相对 方差 (变异 系数 的 平方 ) 都 相等 ， 根 据 前 述 表 达 式 , 这 个 
量 为 














(Ov):= Le _ PD ro 
(Ot O20w). (4.20) 


4.1.3 方差 的 估计 
在 前 述 方差 的 近似 公式 中 , 都 涉及 总 体 的 有 关 量 , 因此 在 实际 问题 中 
妇 需 用 样本 估计， 我 们 用 
开启 (fe)? (4.21) 
合计 而 澡 (Y: 一 呈 卫 )?。 这 个 信 计 也 是 有 偏 的 ， 但 可 以 证 明 ( 详 见 
$4. 外 当天 时 , 偏 入 也 趋 于 0。 于 是 六 (再 ) 的 估计 可 采用 











1 Cox 一 0 
of)= 1 mi I 
i a 
-En 襄 从 + 各 襄 总 轨 一 2 玉 加 ve) (4.22) 
-35 (3 站 rs 一 2Rs,e), (4.33) 
其 中 
号 -二 
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一 妇 作 一 起， (4.25) 





Sow 


分 别 是 风 与 的 祥 本 方差 与 协 方差 ， 
在 wi( 印 中 我 们 也 可 以 用 om 的 料 本 光 值 亏 代 鞭 总 体 殉 值 王 ， 从 而 得 


到 (在) 的 另 一 种 合计 ; 
walf)—1 ze -了 (4.26) 
注意 ，w( 忌 ) 并 不 一 一定 不 如 oa( 机 )， 这 两 种 估计 的 优 劣 在 不 同 问题 中 
是 不 同 的 ，9z 玫 闻 s 的 方差 居 计 公式 可 由 相应 的 va( 角 或 如 ( 角 得 到 ， 
不 另行 列 出 了 . 


4.1.4 转 信 限 

对 一 般 的 %, 比 居 守 的 分 布 偏 斜 程度 很 大 ( 右 偏 ), 因此 在 用 估计 量 欧 
正 态 近似 时 要 特 另 小心. 通常 具有 当 %>>30， 且 ev(2)<0.1, ev( 四 < 
0.1 都 得 到 满足 时 , 才 可 直接 用 正 态 近似 构造 置信 区 间 ， 否则 ， 需 用 以 下 
更 为 精确 的 近似 ; 





BE(ly— Bs)=F— RY-O0, 
VI- RL 8+ ReS:— aRSye) 
8+ Ba82 ARS ge. 
为 使 符号 简洁 起 见 ， 这 里 用 上 表示 (8) 等 。 由 于 只 要 % 不 太 小 ( 例 姬 
>80), 名 .# 即 可 近似 看 作 遵 从 正太 分 布 , 从 而 


g— BR 
-J . 
VT ds (4.27) 


近似 遵从 入 (0, I)。 对 给 定 置信 水 平 4 一 , 令 吕 一 土 ww， 即 有 关于 及 的 
下 列 二 次 方程 ; 





(F— Ra)?— wg+ R's —2Rsys), 
{2 — asd) BR?— 2(39 ~— wsys) B+ (9*— udss) — 0; 
解 此 二 次 方程 可 得 五 的 两 个 根 : 
BR- AL(— wipss) Tu Vv (Tr) Coo oy 
/ (I —wach), (4.28) 








2 
CE 2 工 -Ps 
全 Er 这 村 区 二 (4.29> 
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Se Lf sw, (4.30) 
yx ny 
是 样本 均值 的 相对 方差 和 相对 协 方差 . 

{4.28) 式 中 的 两 个 及 值 即 是 瑟 在 1 一 置信 水 平 下 的 置信 和 限 。 当 
coco8 .wzcse 篆 很 小 时 (相应 于 更 大 的 ?2)，(4.38) 式 即 篇 化 为 

一 让 ww 有/ 二 oDoyr . (4.81) 

此 式 即 是 直接 用 忍 的 正 态 近 似 所 得 前 吾 的 置信 限 。 


3yz 一 

















4.1.5 ”上 比 估计 与 简单 估计 量 的 比较 


下 面 的 定理 给 出 了 在 大 样本 时 ， 比 估计 比 简单 估计 更 为 精确 的 条 
件 . 





i So/E_ 1 Cr 4.39} 
号 (4.32) 


时 , 有 
Vy) <P OD). 
证 明 根据 定理 4.1, 当 nn 足够 大 时 


VD SE (S33 -2BpSyS.), 
而 对 简单 估计 志 有 
7 Ls. 


故 当 以 下 关系 成 立时 
RS 2RoSyS .< 0, 
Bg. 1 Oe 
出 2 5 
有 V ga) <VD. 


特别 当 O.~O (例如 当 XX 是 严 , 的 前 期 数据 时 即 有 此 类 情况 )， 上 由 
要 p>1/3, 比 估计 就 比 简单 估计 更 为 精确 . 


4.1.6 数值 例子 小 麦 怖 产 证 查 

人 鲍 & 工 茶 县 为 估计 全 县 的 小 安 产 量 ， 在 全 县 下 一 也 76 个 村 中 用 简 
单 随机 抽样 抽 了 % 一 2 个 村 。 调查 了 这 些 村 的 小 麦 产 量 ， 表 和 4,1 记录 了 
调查 结果 及 这 些 村 的 小 麦 种 植 面积 . 已 知 全 县 小 麦 种 植 面积 总 和 和 为 
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21875.6hm 六 公正). 
表 和 .1 某 县 小 海产 量 调查 
























产 盟 % 从 多 填 村 面积 xbhan9] 产量 的 | 吉村 而 各 dh 

1 112.0 30.2 四 i057 | 30.8 
2 12g,1 36.1 14 80 必 21.7 
a 208 .3 60.8 15 163.0 49.2 
4 158.5 16 98.7 28.0 
§ 110.2 17 137.8 37.8 
6 143.3 18 141.2 38.6 
7 157.7 19 152.5 42.8 
8 154.2 20 149.5 39.0 
9 38.7 21 136.7 37.6 
10 119.7 22 15g 43.2 
131 125.5 93.0 26.1 
80.3 I79.8 8 .3 















《+ 为 吨 的 国际 单位 符号 ) 

根据 表 4.1, 计算 得 到 有 关 样 本 的 数据 如 下 : 
n= 24, 工 一 了 一 0.95883， 
y= 也 mr 一 8185， 2= 王 二 875.1， 





5 一 -一 5 
a3f -130.625, 2 37—36.4625, 


lw SY;—H)— 25580.485,， 号 一 妇 — 1112.195, 
> 





1 一 D0) 2184. 65635， Ss- 加 一 84.98505， 


be BB 5) =7890.1525, suo— 笋 -aat8t10。 


于 是 该 县 的 小 麦 每 公顷 平均 产量 于 的 合计 为 ， 
R= =3.58945(/hm?). 


小 麦 总 产量 了 的 比 估计 为 : 
Pp— R21875.6x 8.5824—78368.2(t). 


为 求 总 及 他 的 方 郑 和 标准 差 的 估计 , 根据 (4.28) 式 , 注意 到 此 时 


一 2 37.97847， 


vAR)— i (ss Rss2 — 2fs,,) 








$ 4.1， 比 估计 及 其 基本 性 质 107 
- Dy L112.195+ 8.582457 x 94.98505 
一 9x3.582456x3891.83110 
一 8.0464x10- 
~ R) = 0.028366, 
vy( 估 ) 一 及?0( 丰 ) 一 385054, 
La 他 — 620.5(). 
和 作为 比较 ,车 按 简单 估计 , 有 
PNy- 576x190.695~ T75210($), 
(FP)=— -DD $2— 14734308， 


MvP) 一 3838.5(t)、 
让 此 可 见 , 在 此 例 中 , 比 估计 依 s 要 比 简 单 估计 精确 多 了 。 
最 后 我 们 求 召 的 置信 水 平 为 中 外 的 置信 区 间 , 根据 (4.28) 式 , 先 计 - 








算 
四 
0- 吕 -2.609748x10-5, 
mn 
CI .到 2.852766x10-, 
% EE - 
Oo -Lh Sve — 2.6987463 x 10-8, 
人 yr 


召 的 95% 的 上 .下 置信 和 限 为 
R= 在 FI 一 zesz) 士 ke res 20wr) — wa( cgcz— c3s)] 
1— wcs 








3.56245x [0.98965 土 1.96、/(65.0753 一 0.64897 X10-5] 
0-58904 
=—8.6221 x (0,98965+0.01609), 
Rr—3.526, Ro~— 3.643. 
即 召 的 95% 的 置信 区 闻 为 (3.526, 3.643)， 相 应 的 了 的 置信 区 间 为 
(77133, 79698). 





4.1.7 乘积 估计 


者 辅助 变量 多 与 多 革 负 相关 关系 , 则 不 能 用 比 估计 , 此 时 应 用 以 下 
的 梁 积 估计 (product estimaior); 
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区- 可 一 三 . 
9- 党， Fr-y 党. 《4&.33) 
与 (4.20) 式 类 似 , 当 mn 大 时 , 乘积 估计 的 
(Gv) OF OL), (4.34) 
且 当 1 Se/ 马 1 0 
< 一 互 BP 一 一 于 本 (9 
时 ,有 国 了 
V gp) ELV. 


$4.2 比 估计 的 偏重 及 其 均 方 误差 和 方差 千 计 的 阶 


4.2.1 基于 有 限 总 体 祥 本 中 心 答 险 的 基本 引 理 

比 估计 是 有 偏 的 ， 它 的 均 方 误差 或 方差 也 没有 无 伪 的 性 计量 .为 了 
深入 研究 比 佑 计 的 偏 剧 , 均 方 误差 .方差 以 及 它们 的 一 些 估 计量 在 大 祥 本 
时 的 性 质 必须 考察 罕 w->oo 时 它们 瘤 于 零 的 可 庆 ， 为 此 ， 在 这 一 小 节 中 
我 们 首先 给 出 在 有 限 总 体 中 抽取 的 篇 单 随机 样本 中 心 所 的 基本 结果 

若 名 是 咖 的 函数 , 又 

im 只 区 [= 到 <co 《下 为 常数 )， 

则 记 #0( 二 ). 

车 名 w 是 “与 克 的 函数 

lim 和 | 有。 一 下 一 oo 


a So 


若 上 面 的 一 0, 则 记名 或 志 , x 一 o 二 -)- 


引 带 .1 设 g 3 分 别 是 抽 自 菜 有 限 总 体 ( 均 值 分 别 为 了 与 于 ) 的 
简单 随机 样本 的 均值 , 则 对 非 负 整数 记录 有 


、 Ofnw2， 车 无 为 偶数 ; 
E(y~¥)*~ EtT {4.35) 
Oo 尘 )， 若 训 为 奇数 . 
Ed 
~ 
Pr ZJ- 2 罗兰 9 为 但 数 ， (4.36) 


Dln ”> “), 若 +5 为 奇数 . 


呈 4.3 比 估计 的 赴任 及 其 均 方 误差 和 方差 尖 计 的 阶 


对 于 绝对 中 心 婚 也 有 相同 的 结果 . 
我 们 不 对 一 般 药 情 次 证 明 上 述 引 理 ( 具 体 证 明 可 见 David & Sukha- 
me(1974) 的 文章 ), 下 面 仅 指出 几 种 常用 且 人 简单 的 特例 ， 


1 Bg—?) VD- OE). 
由 定理 2.2, 有 ; 
oN a 
2 





7) /TN 1 
2) BGG-7) (5- 3)- HR S00(F). 
出 定理 2.3 知 结论 成 立 


了 到 Nn)CN~ An) 
3) BIT PEE) NR Dy 





x FP) 0(E). 
(4.87) 
特别 





ie NN on) Vy spfl 
By—Y) NN ma SY) =0( 去 ). 
{4.38) 


4) BF PYF Ty Nn NHN 6nN+6n? 
) BI PIG EE) 


到 加 3 一 1 一 (ON 一 m 1) 
x 癌 (人 PZ 到 7 二 nN I CNH 


x 高 (CY 一 瑟 -了 )][ 祷 CX, 0( 寺 ). cs9) 


5) Bg) Nn Nt NEnN+6n? 
) (9 》 (人 一旦 ) ns NON—1)CN —2)(N 3) 


y 
YF Nn Cw IN nl) 
WS WN 











x{ 宫 C 了 )* 襄 (Zz:- 卫 ?+2| 训 (YP 了 (x 了 J 中 


奖 
-0{ 二 》 - (4.40) 
特别 


Ey—P)y— N—n N+N—6nN+én * 


mn NN DN YY 
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彤 or- -o( 雪 ) 


119 
BN mn DON- nl) 
ENCINO (人 
下 面 证 明 (4.37) 式 . 《4.89) 及 (4.40) 式 的 证 明 与 此 类 似 
P=-U, wy-Y-us 
Bi 一 于 vw. (4.49> 


(4.41) 


令 
及 ,一 臣 一 TV 

则 UD=0, i=y—7, 
六 =0， 5 一 二 一 总 . (《 生 .48》 


) (5 一 是) 一 So] 


le 

[高 w)( 训 "+ 高 ee) 

一 二 万 [ 访 ui 二 宫 ui3+3 高 woor+ ,为 weim] (和 44》 
《4.46》 


-也 
1 pg 

Ta 
工 
县 芭 


根据 对 称 性 论证 的 原理 , 有 
到 高?)- 千 襄 0 
沪 (UPS+2UV TP)), 


n(n—1) 
NCN 1) 疗 


3 n(n 一 1)(n 一 2) 二 
下 吝 wom)- 台 和 Pr 
WN Ea N 
0-( 训 ( 训 - 襄 UVir 久 D073 
sl 43 1 Ez 


(4.46 


BB jroo) ]— 
(4.4 


到 N 
DE UPI= -DUPE. 
所 总 
i 
0 (SoSr) -Euririrr, 


六 
一 名 UTP -BVP 


Ef 
Ea 页 3 Ep Ea ba 
0- 襄 0) 入 7) -名 四 人 P 训 PT 
TOV Ura Tr 三 Dr 天 
Er 7 Tk 


- 咏 BF E UV ps 
了 ETP 


时 4.2 比 佑 计 的 偏 将 及 其 均 方 误 关 和 方差 估计 的 春 111 


一 UVP -2 光 DJ 一 D3 Up?. 
一 


将 上 述 关系 代入 (4.45)~(4. 约 ) 式 , 从 而 根据 (4.44) 式 得 到 。 
By—F) (5 一 至 )2 
-0 
~ 





44.22.2 比 估 计 的 偏 倚 与 均 方 误差 及 其 阶 的 估计 
定理 4.8 对 简单 随机 抽样 , 比 估计 及 一 立 的 偏 集 为 ， 
B(B) -ER-B)- TL RO- 
证 明 下 可 写成 





(4.48) 


7 
?+ ) Roy) (1+67) 
ZG+ < = ) 





其 中 88- -2 (1+55)- 一 屋 
于 是 总 的 售 倚 可 表 威 : 
B(A)— HR— R= RE[(SY—62)(1+87)-1] 
一 BB|s5 一 3) 二 |. 
EE 





而 另 一 方面 
人 1 十 575) 一 荆 一 82 十 (32)2 一 (37)8 十 
”=1—67+ (62)[1— (65) -上 《82)2 一 
一 工 一 中- 十 (35)301 十 3) 二 
165+ (C85)? 之 
T 
B'(B)— REL(GY— 62) C168)] 
一 RE[SY 2 Sy87+ (Sx) 
一 al AE 局 2(G- 学 了 多 = -2)] 
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-a [了 - Covy, 2] 
2 Ba 

~ ER(L-N) 

一 一 (02 一 Ouo)， 


车 令 玉 .~ 节 吉 (王刚 根据 引 理 4.1, 有 





[BC BCA- | B[ C89—3%) ea 
< -8). 
于 是 B(A)= -一 Res— 本 ， 


注 ， 由 于 (十 8)-1 一 1 一 88 十 … 十 (83) 四 -2 一 (688) 十 …， 
故 著 令 、 、 
BRB) 一 再 再 {(8g 一 8) [一 35 十 … 十 (5 太 2-2 一 (35)2 归 ]， 


出 1B( 有 一 Bu( 届 1 一 忆 | B03) (3)™ 人 ||- oi:). 
定理 名. 旦 入 弟 随 机 四 样 比 信和 舍 计量 总 的 均 方 误 卷 为 











MS 卫 ( 友 ) 一 一 二 3 < rn 总 (7,- Rx):+0( 吉 ). (4.49) 
i Rs (2 ) -2 re _ 十 于 
点 ) ( RE 
二 02 一 
受 * F(R) 
从 而 MED (A (RR)? 
Fr 一 及? 





总 -3G 一 三 )? 一 已 [ 





5 
1 1 工 总 
一 刘 人 人 tH 全 (Yr RX 
一 了 [2 -|. 
为 估计 上 式 第 二 项 的 阶 , 记 
Xmas (研一 fF). 


|z [mj|< 坟 二 51G-D)G-R3)4 
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人 





2 1 
和 而 (AR) I 0( 直 ) 目 
有 
2 2 
H(A BR BR(OE 一 Cun) 




















~ MSECA) 二 二 讲 i J SF BXO* 
Ee (02 一 Oo) 
”0 


~ /7 .Se. RS — pSy 
Yn VT I 








RS —pnS, 
一 Cr VSI+ RS — 3BRoSySs, (4.50) 
其中 
/i .Si 
ce-V 二 二 党 WE oo (4.51) 
是 五 的 变异 系数 ， 由 此 可 知 -器 5 人 一 是- 的 阶 为 0(- 大 -)， 因而 在 是 可 





~ MSE(CA) 
用 贷 讨 征 。 当 名 足够 大 时 , 偏 伴 可 以 忽略 , 而 MSEC 有 A 有) (RB). 工 ,Kish 
等 许多 实际 问题 计算 了 光 C 人 生生 ， 公 现在 绝 大 多 数 网 题 中 ， 这 个 量 
小 于 3 多 

Hartley 与 Rosa(1954) 给 出 了 关于 在 偏 倚 的 一 个 精确 公式 . 考虑 


Cov (Ah, 司 -= 如 (村 .本 ECA)B(GE) -7 DA), 


加 (和 一 各 一 喜 Cov( 动 = 召 - 间 cov( 训 本， 
从 而 
B(A) -R= 一 间 Cor( 凶 司 . 2 (4.59y 


例 色 .2 对 玫 4.3 的 契 =6 的 人 为 总 体 ， 通 过 计算 所 有 可 能 的 mw 一 和 
前 简单 随机 样本 研究 比值 估计 站 及 比 估计 Bs 的 偏 丧 、 均 方 误差 与 方差 。 
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表 4.2 一 个 六 一 6 的 人 为 总 体 





人 工 2 3 4 5 6 








-5, Fo1l, RBR=2.9, 
S35.2, S32—28.6, Sye—11.0. 


穴 和 .3 从 表 4.2 总 体 店 抽取 的 所 有 一 4 简单 随机 样本 的 比 估计 与 回归 估计 


























样本 号 了 | 站 本 包含 的 单元 号 | 五 下 Bn oe 
1 {1, 2 3 4) 82.75 £8-25 | 2.2000 | 11.0000 | 1.81430 |10.51840 
2 人 2 3 5 有 .23 9.25 | 2.1765 | 10.8824 | 1.94915 |10.71186 
3 {1, 2, 2, 6) 4.50 10.00 |2.2222 | 11.1111 | 2.14286 |]1.07143 
和 4 1, 2, 4, 5) .25 9.50 | 2.2353 | 11.1765 | 2.00000 |11.00000 
Ba 1 2 4.50 10.25 | 2.2778 | 11.3889 | 2.16667 |11.33338 
6 1 25, OD) 车- 11.25 | 8.2500 | 蕊 .38500 | 2.11538 |11.25000 
7 (1, 3, 4, 5) 4.75 10.25 | 2.1579 | 10.7895 | 1.98040 110.745T 
2 (C1, 3, 4, 6) 5.00 11.00 | 2.2000 | 11.0000 | 2.16667 i11.0000 
9 {1 3, 5 ©) 5.50 12,00 | 2.1818 | 10.9091 | 9.14286 |10.9286 
工 0 人 4 5, 6B) 5.50 12.25 | 2,2273 | 11.1364 | 2.11905 |11.1905 
I1 (2, 3, 4, 5) 5.00 10,75 | 2.1500 | 10,7500 | 2.00000 |10.7500 
3 了 2 和 (2, 3, 4, 全 5.25 11.50 | 2.1905 | 10.9524 | 2.23530 |10.94118 
18 (2, 3, 5, 67 5.75 123.50 | 3.1739 .| 10 .8696 | 2.30340 ;10.8475 
14 从; 和 多 5.75 12.75 | 2.2174 | 11.0870 | 2.15250 11.1356 
15. 8 4, 5,. 6 6.25 13-50 | 2.1700 | 10.8000 .| 2.44444 |10.4445 





吉 4.3 列 由 了 全 部 ( 生 ) 一 二 个 可 能 的 mn 一 4 简单 随机 样本 ， 对 每 个 
样本 , 计算 样本 均值 .比值 信 计 有 一 3/3 及 开 的 比 佑 计 3 一 站 豆 、 为 
了 以 后 研究 回归 估计 重 的 方法 ， 表 中 的 最 后 商 列 还 列 出 了 样本 同 归 系数 
5 及 回归 估计 各 ( 详 见 % 4.6) . 

(= 二 车 B= 2.201369, 
B(A)- BE(A)—R-2.901369—2.2=0.001869, 
MSB(R)— E(B— BER) 

- 亩 | 澡 负 -4.4 芒 负 -+ (2.D:x16] 

~ 0.0012575, 
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VA)— MSE (RA) — BR)= 0.0012556, 
BA) 0.001369 
VMSECA) /5.5012575 一 0.0386. 
和 将 上 面 的 结果 乘 以 豆 -5 或 至? 一 35 即 得 有 关 ga 的 偏 乔 、 均 方 误差 
和 方差 ， 续 果 为 : 
B(yn)=0.006844, MSB(yn)—0.03144, V(yx)~0.03139. 


4.2.3 均 方 误差 或 方差 估计 的 偏 倚 
在 OD 襄 (7. 一 BZD” 放 在 对 MSE( 公 
或 六 ( 育 ) 进行 估计 时 ， 一 Rx.)* 来 作为 它 的 
秸 计量、 前 已 指出 ， 这 个 全 计 委 也 是 有 仿 、 上 有 以 下 的 定理 : 
定理 和 .5 对 简单 随机 抽样 ， 契 二 是 如 一- 于 的 信 计 ， 则 





一 BEDa+O(). 
4.53) 
证 明 令 @ 一 了 了 一 RX(i=1, 9 ND), = R(t 1, D9, 
), 则 可 ~ 了 一 好 0. 
= 站 wp 一 3 {CW4— Be) 一 (RB Rml’ 





[二 宫 - 0] -大 


Rs 





1 号。 1 
i br 
~2(A— 局 下 oo ， 








#9] ?a ( 答 (e 一 玉 7 更 
-Fr 


RI) +O() (4.5) 








118 第 4 章 。 比 合计 与 回归 估计 
| S| 

_ py 全 
本 (让 -R)* 生 + 


其 中 五 "~ max {及} 
es 


| | aa- was | -|s[(2-B)Sgd]| 
- Em 1ECLCR- ED 


a8(R— BR) 
一 o(#). (4.56) 











Tn a 
HT VECR- RMVB) 
工 
一 o(#). (4.57) 
将 [4.54) 式 取 期 望 , 并 将 (4.55) 和 ~ (4.57) 各 式 代入 , 即 得 


Eh) | 凡 (Y R70(5) 
































推论 1 车 令 
CN (4.58) 
-3 (SS+ BB — 2h,e), (4.50) 
网 
Bln 二 一 00) (4.60) 
{4.61) 
推论 多 落 令 
. wa(R)= 2 、 — fsa), (4.62) 
区 也 有 


五 be( 及 一生 -大工 避 (F 一 arO"+O( 误 ) (4.63) 
-MSE +0()-V A) +O( 坟 ). (4.64) 


1 — Ru?] 


证 明 五 [去 








章 4.8 ”分 层 糙 机 抽样 中 的 比 估计 TI 


-了 [总 去 = 局 o- 名 0 


2 1 x 
— 2 Cy — Br) | 





- 训 了 和 | 
-82 |]. 





记 了 "~ max {7 了, 于 是 
局 Ci 一 如 or<2 总 Ci+ 瑟 oa) 
人 (2 ， 
| z[E 和 训 人 w- 
[one 号 如 oa 


-的 ) 


[二 mI 宫 - Ro)"]— 











i 二 Nor_ a 
2; WT 己 ( BI,) 
+ o(+t), (4.65) 


-RX)'+O(E). 目 





§ 4.3 分 层 随机 抽样 中 的 比 估计 


对 于 分 层 随 机 样本 , 可 以 定义 两 种 比 估计 的 方法 : 一 种 是 先 对 各 层 分 


蜀 进行 比 任 计 , 然后 汇总 成 按 晨 权 平均 得 到 总 体 参 数 的 估计 , 这 称 为 分 别 


比 估 计 . 另 一 种 是 先 按 分 层 随 机 抽样 公式 对 了 、 卫 《或 了 、 斑 ) 作 分 层 信 计 ;» 
再 对 它们 应 用 比 估计 ， 称 为 联合 比 估计 . .本 节 分 别 就 这 两 种 情况 进行 讨 


论 , 并 对 两 者 进行 比较 . 
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4.3.1 分 别 比 估计 

定义 4. 对 分 层 随 宙 抽 样 , 3 是 妨 层 样本 均 信 ，3na 与 人 mm 是 下 
层 豆 。 与 了 的 比 估计 , 总，SE， 分 别 是 2 层 人 2" 的 均值 与 总 和 ， 则 总 体 均 
慎 到 与 总 和 工 的 以 下 估计 称 为 分 别 比 佳 计 (geparate ratio egtimator): 





Wm 一 轩 W,- 如 本 一条 完 妈 -天 (4.66) 
n 人 zy 
Pr Wyns—D Pm. (4.67) 
EE 


为 方便 起 见 ,下面 仅 对 他 =。 进行 讨论 . 
定理 4.6 ”在 分 层 随机 搞 样 中 , 若 每 层 的 样本 量 mw 都 比较 大 , 由 有 
EPr) SY, (4.68) 


MSE(PF) SV (Ps) 
Ep BO- (S34 + RISE, — ARs pwS mS en), 
(4.69) 





孔 - 全 -全 
其 全 全 





证 明 根据 定理 4.1, 当 mw。 大 时 ,有 
BP mm) Yn, 
MSE CPr) SV (Pm) 
~ EL) (88, + BASH — aR prS nen) . 
. Ph 
于 是 根据 全 x 的 定义 ， 注 意 到 各 层 的 抽样 是 相互 独立 的 ， 了 从 而 定理 得 


证 . 
特别 指出 : 定理 4.6 的 条 性 是 每 层 的 m 都 要 比较 大 ， 当 mm 不 太 大 ， 
而 层 数 五 比较 大 时 (不 少 实际 问题 即 是 如 此 )， 企 wm 的 偏 倚 就 可 能 比较 


大 . 


汉 .3.2 联合 比 估计 


定义 4&.3 .对 分 层 随机 抽样 ， 总 体 关 和 与 均值 的 如 下 估计 称 为 联合 
比 估 计 (combined ratio estimator}, 
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Dj 2 (4.70) 
EE 


a 





gc 一 Pe de AT. (4.71) 


Das 
鞭 中 训 : 一 轩 Wa9ss zat 导 且 wz 与 合金 分 别 是 也 、 玉 与 了 、 耻 的 分 
县 入 单 估计 , 而 妃 一 依 ,/ 于 一 Ye/ Bo . 
注意 : 联合 比 估计 只 需 已 知 了 (或 孚 ), 而 不 需要 已 知 每 层 的 Xi 
定理 4.9 ”对 于 分 层 随机 抽样 , 著 总 样本 量 ”比较 天, 
BBP) oF, (4.72} 


MSB(P 1) 2V (Ps) 
PI (gr B18, —2BoB sn). (4.73) 
证 明 ”采用 与 证 明定 型 4.1 类似 的 方法 ， 当 大 时 ;5 于 
他 wo 一天 一 及 
EJ 


a 











Es RE) 
JN gu — RF). 
于 是 召 ( 信 no 一 了 ) 0，(4.79) 式 成 立 , 又 令 
人 一 Ym— RA 则 一 Fi — BE. 
get — Ys— Rise, BGu)— YR-0. 
于 是 VOPR) SEPr PF) NB) ~ NV (Fn) 


于 ee 2 


二 车 (Gm- 6) 


其 中 





有 2 一 万 
一 Wi SCF) -BC EJ 
— Hh +R,— ABpyS Sn. (4,74) 
从 而 定理 得 证 . 四 
比较 (4.69) 与 (人 .Y8) 两 式 可 知 矿 ( 多 mo) 与 普 (全 so) 两 个 近似 公式 形 
式 上 非常 相像 , 所 不 同 的 是 , 前 者 的 和 式 中 出 现 的 是 各 层 的 责 ; 而 后 者 的 
和 和 式 中 出 现 的 是 总 体 的 至 . 
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用 Hartley-Ross 方法 可 得 到 个, 的 你 情 与 它 的 标准 差 之 比 的 上 
界 ， 由 
Cov (fss wt) Se Cov 2 ， Et) 
ot 
BG) -BE(B)E(z:) 
“FTE(R,). (4.,75) 


| 1B(B) 一 RI 一 剖 10ov(B, 101 
人 < 喜 MPFR) CR) ~ /Vr (Fos) 


= MV RIOvE), 
只 而 
|B(Pn) 一 六 | |B(R)-R| 
~ iPeo) VV (CR) 





<Ov(ze) 。 (4.76) 





守 ,3.3 分 别 比 估计 与 联合 比 估计 的 比较 


当 每 层 的 m 都 比较 大 时 (此 时 % 更 大 )， 根 据 定理 4.6 与 定理 4.7， 
加 - 
VPa) 一 六 (他 


~ ER Ss, 一 2(B 一 有 pugwmga] 
-ER -B82 B) 


X (prSyuS es — RnSEa)]. (4-07) 
当 每 层 的 了 3 与 及 m 的 关系 是 通过 原点 的 直线 关系 ， 也 即 了 w 与 
玉成 正比 秽 时 , psSm 一 BySan; 此 时 (4.77) 式 中 括号 中 的 得 二 项 为 0. 一 


规 的 只 要 比 估计 有 效 ( 启 > 寺 全 *)， 则 这 一 项 的 什 不 会 很 大 ， 因 而 除非 
各 层 的 一 妃 否 则 ,有 有 








PVs) Va). (4.78) 
闪 此 只 要 各 层 的 mw 都 比较 大 :各 层 的 比 估计 比较 有 效 ， 则 分 别 估 计 要 优 
于 联合 估计 .但 当 某 些 wm 不 太 大 时 , 则 应 用 联合 估计 ， 因为 此 时 分 其 镶 
计 的 信 傍 可 能 狠 尖 ,从 而 使 总 的 均 方 涡 准 增 大 .. 
;好 主 述 的 近似 方 佐 作 信 放 时 ;、 可 用 锅 、 训 估计 Ri.Bi 用 吉 、 品 售 
计 5 .Ss 用 样本 协 方 关 sso 信 计 层 协 方 着 Sa px8.29， . 
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4.3. 和 4 ”分 层 比 估计 时 的 最 优 分 配 
在 分 层 抽 样 中 , 落 用 比 估计 , 则 最 优 分 配 与 朵 简单 估计 时 的 最 优 分 配 
稍 有 不 同 。 下 面 以 分 别 比 必 计 全 ss 为 例 说 明 考 虑 的 方法 (联合 比 估计 也 


有 类 似 的 结果 )- 
根据 定理 4.6, 当 mw 大 时 ,有 


V On) mm) (83, + BESS, —2BpS nn) 











A NN ra) ge . 
会 叉 论 Sn. {4.79) 
其 中 
了 1 1 驮 a 
六 一 I 总 名 全 WT 室 * RRm)’. {4.80) 
用 $8.8 同样 的 处 理 方法 , 可 得 到 在 给 定 总 费用 为 简单 线性 函数 
0O= go 二 字 Ci 

竺 ,最 优 分 配 为 

acc 2 。 (4.81) 


这 里 的 主要 问题 是 各 层 8m 网 值 难于 确定 ， 在 多 数 场 全 需要 途经 
验 . 在 一 些 问题 中 , Sys 可 以 看 成 与 县, 或 ~M 卫 。 近似 成 正比 。 





和 .3.5 数值 例子 一 一 耕地 面积 核实 调查 


例 .3 为 核实 某 地 区 上 报 糙 地 面积 数字 的 真实 性 . 对 该 地 区 所 属 
的 村 按 不 同 的 地 形 面 狐 划分 为 三 个 层 、 用 比例 分 配 分 层 随机 抽样 在 层 内 
抽取 村 进行 耕地 面积 核查 。 娃 果 如 玫 4.4 所 去， 其 中 印 是 第 亏 个 丹 本 村 
实际 耕地 面积 , mw 是 该 村 登记 在 册 的 耕地 面积 ， 

一 些 有 关 层 的 参数 及 根据 表 4.4 计算 的 一 些 中 间 结 果 列 于 表 4.5. 

表 4.6 中 的 关 z 是 nw 一 28 个 村 样本 均 信 , 名 yg/。 由 于 本 例 中 各 层 
章 分 配 是 比例 分 配 , 因此 , 这 也 可 看 作 是 从 总 体 中 抽取 的 一 个 简单 随机 样 
本 的 均值 和 对 总 体 五 = 了 /四 的 合计， 而 号 .可 .su 分 别 是 这 个 样本 关于 
yi 的 样本 方差 和 样本 协 方差. 

我 们 按 不 同 抽样 方法 及 采用 不 该 的 估 讨 量 来 对 该 地 区 实际 耕地 面积 
了 作出 估计 , 并 给 出 估计 的 精度 。 泊 有 的 fpe 都 取 为 芋 
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表 和 -4 耕地 面积 核实 调查 样本 数据 












































nl n=2 he=8 
i Ea Te 3 me i Ed me 
1 1241 74 工 1030 885 1 652 527 
2 858 945 2 931 996 2 627 585 
3 963 824 3 1039 305 3 374 了 4 
4 1133 1113 和 I101 995 4 1499 41130 
5 934 | 1037 5 $21 831 5 1200 1140 
6 2838 792 6 561 545 6 1254 952 
7 621 586 7 980 807 
3 Ga7 5098 
9 654 598 
19 848 B27 
表 和 .5 耕地 核 光 各 层 参 数 及 若干 中 间 结 果 
a | Rn EA a 产 2 EE 
1 A427 0.4375 367200 10 373.4000 856 .0000 了 .030327 
2 | 297 | o-so43 | 251600 了 933,2857 837 ,7143 1.114086 
3 252 0.2582 203000 € 1034 .3333 845 .8833 1.222857 
| N—076 Ct 258( R=28 | 名 933 .6087 | F847 .7826 头 一 1.101236 
Sha 2 | Boa | Qs WA/ a | ps 
1 42064.933 45710,889 42055.667 0.0191406 | 3831.9745 4864.0154 
2 31331 .与 7 工 23294.905 269 号 .429 0.0132283 9572.3837 9489.1195 


EE 121470-667 | 71846.967 | 87713.867 | 0.0111112 | 1485.951 | 15423.045 











=57745 | 5s%=41446 | sc 一 43951 





蕊 简单 随机 抽样, 简单 估计 
P= Ny= 976x 933.6087 一 911203， 
sP)— VHF) NV). 
为 计算 oCy), 我 们 采用 C3.53) 式 : 
= 二 [2 二 st os) ]. 
其 中 s2— 57745, 
1 


vg) 一元 导 Wish—2576.86, 
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从 而 s(F)—976x Y 训 | 客 x 57745-+2576.86| 


一 48933， 
2) 简单 随机 抽样 ， 比 帖 计 


一 EE BF 一 1.101236x 826800 ~ 910502， 
sa( 他 中 一 TV 二 (st+ Bess — 2 有 se 
一 976x [机 Gerr45+1- 101236* x 41446 


3 
—2x1.101286x 48051)] 


—28372. 

这 里 在 利用 分 层 样 本 估计 总 体 方差 与 协 方差 时 ， 用 了 近似 公式 、 直 
接 用 样本 方差 中 四 与 协 方差 ye 进行 估计 (从 %(9 的 计算 过 程 可 看 出 两 
者 相 善 不 大 )， 

3) 分 层 随机 抽样 , 简单 估计 

多 4. 一定 N= 910780, 
s(P) — NVvYet) 一 976x /3575.85 一 49544。 
多 分 层 随机 抽样 ,分 别 比 估计 
个 nm 一 > 妆 X= 于 和 外, 斑 , 一 909459， 





sD 1) — NY PEE Ct Bt, ~ 2 rem) 
aNVEET 


~ 976 x (0.0191406 x 8881 ,9745+0.0132288 
x 9572.2887 -+0.0111112 x 1485.951)# 
一 14360. 
5) 联合 比 居 计 
全, 一 910780， 介 ,: 一 卫 和 Naz, 一 827463, 
在 一 各 一 1.100690， 全 p= 自卫 910050， 


a 





s(P po) 一 ND Ei (884+ Rass, — DAsyen) 
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NV Fo 

=976(0.0191406 x 4864.0154+ 0.0132283 
x 9489.1195+0.0111113x 15423. 045) 

—19274. 

上 述 五 种 结果 可 以 列表 进行 比较 ( 见 表 么 .6 其 中 相对 精度 是 每 种 
方法 所 得 其 计量 的 方差 与 简单 随 桃 抽 祥 的 简单 估计 的 方差 之 比 的 倒数 
《相当 于 deff 的 倒数 )， 从 表 4.6 中 可 以 看 出 在 五 种 估计 中 ， 以 分 层 随 机 
抽样 的 两 种 比 估计 的 精度 最 高 ， 其 中 分 别 比 估计 的 方差 比 联 合 比 估 计 更 
小 .但 我 们 已 指出 , 当 wm 不 大 时 , 考虑 到 偏 倚 , 联合 比 佑 计 不 一 定 比分 别 
比 佑 计 效果 车 .此 外 , 简单 随机 抽样 的 比 估 计 效 果 也 不 错 ， 在 此 例 中 , 分 
尽 随 机 抽样 的 简单 估计 效果 不 好 . 这 是 因为 层 内 方差 较 大 (特别 是 = 
3)， 其 至 超过 了 总 体 方 差 的 综 放 ， 表 4.6 中 了 的 五 种 估计 差别 不 很 大 ， 
这 纯 属 候 然 , 是 因为 正好 抽 到 一 个 “ 较 好 ”的 样本 ， 按 标准 差 值 看 , 商 个 简 
单 估计 的 变化 幅度 较 大 . 


表 和 .不 局 抽样 方法 各 估计 方法 的 比较 








抽 禅 方法。 |。 佑 计 方法 情 计 重 全 全 的 标准 差 估计 z 人 多 ) 相对 精度 
简单 随机 抽样 简单 估计 91120% 48932 1.00 
简单 随机 抽样 比 估计 910502 23372 4.38 
分 层 随 机 抽样 简单 估计 39410780 49544 0.98 
分 层 随 机 抽样 分 别 比 情 计 909459 14360 11 .6 了 
分 层 随 本 抽样 “| 联合 比 估计 810050“ 19274 6.45 


3 4.4 消除 或 减少 比 估计 偏 倚 的 方法 

由 于 比 信 计 是 有 仿 的 , 因此 当 样 本 基 不 太 大 时 , 特别 是 在 分 层 随机 折 
祥 中 , 营 层 数 很 大 , 而 每 层 祥 本 量 z 不 大 且 分 别 比 估计 又 适用 的 情形 , 比 
估计 量 的 偏 倚 就 可 能 很 大 .此 时 可 引进 无 伪 的 比 类 型 佑 计量 或 设法 减少 
估计 量 的 偏 集 ( 例 如 使 它 的 阶 从 O( 夫 ) 噬 至 O(- 专 ) 或 更 小 ) 的 办 法 来 处 
理 ， 因 此 这 类 估计 量 是 有 实用 意义 的 。 不 过 也 应 指出 ， 在 消除 僵 集 或 尖 
少 偏 伴 的 同时 ， 可 能 丰 起 估计 量 方差 的 增加 ， 因 此 要 全 面 癸 量 这 些 新 的 
估计 量 , 还 应 研究 这 些 佑 计量 的 总 的 均 方 误差 , 另外 还 应 考虑 这 些 估计 量 
能 否 提供 一 种 从 样本 估计 其 方 学 ( 或 近似 方差 ) 的 可 行 方法 , 
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4.4.1 无 偏 的 比 类 型 估计 量 


本 盟 讨 论 三 种 无 偏 的 比 类 型 的 佑 计量 。 
一 、Hartley-Ross(1954) 估 计量 


沽 谨 总 体 卫 ~ 全- 的 以 下 信守 

















i 
7 一元" 人 (4.82} 
为 求 工 的 篇 做 ,注意 到 
二名 1 FY 
召 (一 元 次 避 人 下 雇 辽 一 了 
表 久 已 (一 玉 =- 表 避 了 - 务 避 局- 了- 同 - 
因而 
E(r)—R= RB 
1 
-一 一 ) 
1 
-Ry RD). 
另 一 方面 , 注意 到 
站- 训 r 一 刀 他- 司 = 王宫 nc 
-7 
是 六 
的 一 个 无 偏 估计 .因此 


Rn + (4.88) 
是 子 的 一 个 无 偏 估计 . 
二 、 了 于 ickey (1959) 估 计量 
令 
让 - 工 思 8 去 六 全 (4.84) 


ni EN 
其 中 和 A, 是 在 % 个 样本 数据 中 去 掉 第 个 , 其 余 n 一 个 妨 揭 平 均值 芳 ， 
与 zy 的 平均 值 #5 之 比 ， 用 及 _ 民营 (4.82) 中 的 7, 则 Mickey 估计 其 
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Be Rt tt GG AD (4.85) 


也 是 下 卫 的 无 个 估计 
、Iahiri(1951) 估计 量 

Tahiri 估计 量 是 基于 一 种 不 等 概率 抽样 记得 的 样本 ， 如 果 每 一 特定 
的 样本 被 抽 到 交往 率 与 样本 中 辅助 变量 指标 和 次 wm 成 正比 ,出 按 通常 意 
义 的 比 估计 量 忍 c 一 才 是 五 的 无 偏 佑 计 。 

我 们 先 给 出 两 种 简单 的 可 以 注 足 上 述 要 求 的 抽样 方法 ， 更 详尽 的 讨 
论 见 第 五 章 . 

1，Lahiri (1951) 方法 令 全 为 总 体 中 最 炎 的 % 个 工 :; 的 和 ， 抽 
一 个 [0, 和 范围 内 的 随机 数 » 及 按 简单 随 机 抽样 抽取 %* 个 单元 ， 若 这 % 
个 单元 中 的 wm 之 和 寥 m>w 这 ?个 单元 就 作为 抽 中 的 样本 ; 否则 ， 白 
弃 这 个 单元 , 重 捕 随 机 数 ” 及 mw 个 单元 , 再 按 前 面 的 原则 判断 所 手 的 单 
元 留 作料 本 还 是 再 舍弃 重 抽 、 显 然 ， 这 样 得 到 的 样本 是 符合 要 求 的 ， 

2、 水 野 (MLidzuno，1962) 方法 按 与 下 ,成正 出 的 概率 在 总 体 
中 抽取 一 个 单元 入 样 ， 再 按 简 单 随机 抽样 在 剩 下 的 下 一 工 个 单元 中 抽取 
-- 个 样本 量 为 一 工 的 样本 ， 则 两 者 组 成 的 样本 有 8 即 是 满足 要 求 的 样本 。 
下 面 我 们 证 明 尽 被 抽 中 的 医 率 Ps 与 名 = 成 正比 . 

设立 是 咏 中 第 一 个 被 抽 中 的 单元 , 且 贡 中 8 的 概率 为 

Ze /N—1\™ 
之 (m2) ” 

对 于 祥 本 尽 中 的 每 一 个 单元 , 都 有 可 能 在 第 一 次 抽样 中 就 被 抽 到 ， 因 此 
抽 中 8 的 总 概率 为 





Poa PA) -TT < 六 (36) 
(wj 
接 这 种 抽样 方法 , Lahiri 估计 量 
Ey 
外 一 合生 (4.87) 
PD 多 


的 期 望 值 为 : 


和 &,4 消除 或 减少 比 估计 信 笠 的 方法 2F 


Eu Er Zu 
nH) 3 


名 一 工 
一 由 2 
让 
2 
有 从 而 色 , 是 无 偏 的 ， 


4.4.2 减少 比 估计 偏 倚 的 方法 
在 4.2.2 中 指出 在 的 偏 倚 的 阶 为 O (去 ), 有 一 些 改 迁 信 计 的 方法 本 


使 它 的 阶 降 低 到 0(- 二 或 更 小 . 


一 、Jackknife 方 法 
Durbin (1954) 首 先 将 Quenouille 的 Jackknife 方法 用 于 比 情 计 ; 


从 而 降低 基 偏 情 的 阶 . 
先 不 考虑 fpe 的 影响 , 即 车 1 一 /一 卫 寺 1 时 , 记 
卫 ( 四 一 BR+ +- 名 +O( 上 二) (4.88y 
设 m= m9, 将 样本 随机 地 分 为 g 组 ,每 组 ( 子 样本 ) 的 大 小 为 m, 则 
2 Ba 工 
民 ( 用 -9R+ 全 十 二 0(). (4.89} 
令 下 ,是 在 样本 中 会 弈 第 j 组 数据 后 求 得 的 比 估计 ， 由 于 此 时 样本 
量 为 m9 一 1), 因 此 
= by Bs 1 
ERD -RI + y+ oz) 
co 5 1 
BICg DA (gDR+ + +0(5 直 ). 
(4.90 
































将 (4.89) 与 (4.90) 两 式 相 减 , 则 得 


RR 5 1 
zz8- -让 人-R-5G 的 mo(C 
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-E+rO( 5). 
五 的 Jackknife 估计 即 是 

Bagh—(g—1) 售 襄 #4 (4.91) 
gh (g—1)R. {4.92) 

其 中 瑟 - 是 9g 组 外 ;的 平均 数 ， 显然 
( 访 )=R+O( 汪 ). (4.98) 
最 常用 且 简 单 的 情形 是 mm 一 +4, g 一 m, 即 等 次 会 弈 一 个 样本 数据 ， 此 


时 有 
和 /一 n(n—1) BB-. (4.94) 


若 1 一 不 能 忽 路 , 则 妇 的 偏 惰 可 均 成 
BR- BR) -Dro(E) 
为 了 消除 如 一 多 , 按 上 述 限 机 分 组 的 步 也 令 
=wohB -CoD RR., (4.95) 


其 中 





g(t). (3-96) 


刚 召 (总 )= Rt+O( 去 ). 
证 明 留 作 练 习 , - . 
二 、Beale(I962) 估 计量 
一 ， 工 一 六 Se 1—f 
yy 二 一 一 一 .一 一 1 Cys 
BR 《4.97) 
” Et. 了 二 二 四 
Re 的 和 





三 、Tin (1965) 估计 量 - 
-15( 芝 -六 -2-5 人 Go)]. 
- (4.98) 


这 两 个 情 计 量 仿 倚 的 阶 鞭 为 0(- 专 ). 
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84.5 品 归 估计 县 (6. 设 定时 的 情形 》 


了 4.5.1 回归 估计 景 的 一 般 形 式 

车 了 ,对 于: 的 回归 直线 不 通过 原点 , 则 为 了 提高 信 计 精度 ， 可 进 一 
步 用 回归 情 计 量 (regression estimator) 来 代 兰 比 估 计量 . 

定义 和 和 对 于 简单 随机 抽样 , 总 体 均 值 允 与 痊 和 了 的 (线性 ) 回 归 
估计 量 定义 为 














gr 一 g 十 且 ( 立 一 动 一 和 一 B(E 一 至 )， (4.99) 
P= Noe. {4.100) 
其 中 53.z 是 样本 均值 , 8 可 以 是 事先 设 定 的 常数 , 世 可 以 是 从 样本 中 计算 
得 到 的 某 一 特定 的 统计 量 , 例如 样本 回归 系数 . 
简单 估计 基 与 比 估计 量 都 可 以 看 作 是 上 面 一 般 情 形 的 回归 估计 量 的 
特 琶 情形 ， 在 (4.99) 式 中 ,车 令 记 -0， 则 3m 一 即 是 简单 估计 量 ， 若 令 
有 8- 之, 则 和 一 让 十 过 (下 一 动 一 加 即 是 比 估计 量 . 


3 的 





4.5.2 有 设 定 情形 的 一 般 结 果 
关于 有 为 事先 设 定时 的 回归 估计 量 的 性 质 , 讨论 起 来 ， 比 较 简 单 .在 
许多 实际 问题 中 , 也 确实 可 以 将 6 事先 给 定 , 例如 为 同样 目的 进行 的 调查 
车 已 重复 多 次 , 则 有 理由 将 从 已 往 的 资料 中 得 出 的 工 , 对 羡 : 的 回归 系数 
作为 的 设 定 值 . 
定理 和 .8 车 Bo 是 设 定常 数 , 则 回归 估计 量 
了 一 9 二 (并 一 一 (4.101) 











是 了 的 无 偏 居 计 , 且 


jy 1—f 1 Ea _ Ts 
VN HT LY 也) — Bo(Z,— I)] 


-8 B883— 2809ye). (4.102) 
注意 : 在 定理 中 并 没有 对 2 与 各 的 关系 作 任 何 假定 . 
证 明 如 (8) 一 加 (D)+BeB(P-z)- YP, 
而 加 又 可 表 为 以 + Bo( 时 一 %) 的 样本 均值 。 后 者 的 总 体 均 值 
为 六, 故 根据 定理 2.2, 有 
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一 了 ) 十 Bo( 吾 一 王佐 
er 1 
四 


—P)—BolT,— 
-+e 380) 用 








推论 若 品 ssve 分 别 是 简单 随机 样本 的 方差 与 协 方差 , 则 
yr) = (st pass— 2Bosys) (4.103》 
是 六 (和 7 的 无 偏 估计 ， 
定理 &.8 极 小 化 广 (yw) 的 B86 值 为 


访 (Y:- 了 )(Z,- 








BA 一 -=r, (4.104》 
” (2 - 
且 
V ondr) = LSI p). (4.105% 


其 中 如 是 有 限 总 体 情 形 多 对 吧 的 (线性 ) 回 归 系 数 ,p 是 相关 系数 . 
证 明 在 (4.102) 式 中 , 令 


Boa B+ 4248 一 和- +43 
则 
VG -rnd4B) NE) 
一 38 三 十 4B)] 
- 与- 要 ) 二 (4B)38 引 、 (4.106) 
它 在 480 驾 Bo 一 B 时 ,达到 极 小 值 ; 
Vo 人 
= sp) 
当 Bo 好 时 ,根据 (4.106) 式 , 有 





VE) Von(yn) + (po 一刀)283 


~ Von lr | 


和 4.6 回归 估计 量 份 取样 本 回归 系数 的 情形 ) 
1 


], 





= Vr CYir) + 人 全 -1 工 2 

因此 , 为 使 方差 的 相对 增加 不 超过 下, 即 
VO) Van(Br) .107) 

Vn gr) ‘ 


加 必须 
Ep 
鲁 -1|<V 2. (4.108) 


例如 车 p 一 0.7, 下 10 多 , 则 
有 DTXZOWST 
| 名 -<Y -0.2. 


(4.108) 式 宴 明 ， 为 保证 玉 () 不 会 有 显著 的 增加 ， 当 1p1 很 大 时 ， 
- 煞 应 很 接近 于 1 也 即 记 应 尽 可 能 接近 归 ; 而 沼 'p| 不 是 很 大 时 ,可 容许 


o 偏离 好 稍 大 些 . 





4.5.3 差 估 计量 
定义 和 .5 B81 时 的 回归 舍 计 量 





3 一 和 十 (下 一 二 一 下 十 (了 一 下 全 到 二 可 (4.109) 
也 称 为 差 估 计量 (di 人 erenee estjiipator)， 其 中 
有 {4.110) 


是 了 瑟 =g 一 wi 的 样本 均值 . 
作为 局 设 定 的 一 种 回归 信 计 量 , ys 是 也 的 无 偏 信 计 , 且 


VO SL ~29). (4.111) 
当 玉 , 是 调查 指标 最 近 一 次 普查 数据 时 ， 常 可 采用 差 佑 计量 来 估计 
YF( 或 了 了 ). 





8$4.6 回归 估计 量 (8 取样 本 回归 系数 的 情形 ) 


4.6.1 表达 式 及 若干 引 理 

在 回归 售 计量 的 一 般 形式 (4.99) 中 ， 若 及 怖 根据 料 本 璃 定 ， 则 定理 
44.9 表明 ,一 个 有 效 的 估计 是 总 体 回归 系数 怠 的 最 小 二 乘 箔 计 , 也 即 样本 
珂 归 系 数 ， 
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sD Ca 
a 
此 时 总 体 均 值 了 的 回归 信 计量 为 
和 一 了 5( 辫 一 下 一 了 5805 一 宇 )， (4.113) 
与 比 佑 计量 的 情况 类 似 ， 些 时 如 是 有 偏 的 ， 为 了 深入 研究 它 的 性 


质 , 在 本 段 中 我 们 先 给 出 若 于 预备 引 理 ， 
引 理 和 .8 车 召 是 有 限 总 栖 中 了 了 ,对 于 ,的 回归 系数 ，z 是 从 总 体 中 


抽取 的 简单 随机 样本 zw 的 均值 , 又 





a— (YF)— BCX T), (4.114) 
则 
DD 训 s-0, -0 C4.116) 
2) 高 oC 一) 0 (4.116) 
3) 恕 计 训 atm)] = o(1) (4.117) 
分 五 于 高 sw 一 可 -0o( 二 ). (4.118) 


证 明 1) 与 2) 是 显然 的 . 
3) 令 D= a( 了 ,一 于 ), 则 =0. 
信 训 se - [村 襄 ww- 忆 到 宫 wG- 了 
一 吧 一 2 一 王 )]* 
一 论 十 型 ( 了 一 总 )3 一 253(5 一 豆 ) 
于 是 根据 引 理 4.T, 有 
His) ~ 0(L), 


召 [3(5 一 于) 站-O( 去 ) 








BLis(s— TY) VBS VAI- 0(-ds). 
从 而 妞 [ 计 襄 sm- 司 ] = o( 芋 ). - 


分 [Ee -a)] = [Gas 有) 
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W309E(F— 于 ) -+60282(F 一 时)? 一 655(F 一 全 )* 
十 BF 一 亚 )4， 
n ap-o( 二 ) 


Eliss(s— RT) < Bu HIeds— EI O (Ge) 





BIi3s— HJ VBL 0(t), 
Blis(i— TF) BAB) Os) 
[25 一 本 )] 0 二 ). 


办 而 三 访 sia] = o( 二 ). a 


引 理 和 .3 如 是 有 限 总 体 了 ,对 下 ;的 加 归 系 数 ，5 是 抽 自 该 总 体 的 
简单 随机 样本 gy 对 mx 的 样本 回归 系数 , 5 一 (yi 一 了 ) 一 BCw% 一 于 )， 则 
lm—z 
了 5 一 五 + 酝 一 ”一 
3 
a nz 全 
-B+ (4.119) 
访 ( 
2) E(B-B):- 0(1), (4.120) 
8) BB(b—B)*— 0( 志 》 . (4.121) 
~B-ofL 
4) 至 (5) —B oF (4.122) 
证 明 2 高 (or 一 恺 (一动 = 孚 w%(w 一 区 
一 六 [了 二 了 3 一 五 ) 十 归 ( 人 一动 


一 卫 襄 mr 一 下 十 竺 sn 一动 
-8B De) + Ee — £) 一 na(3 一 于) 


134 ”第 4 章 雍 估计 与 国 归 估计 
总 一念 (wm 一 习 
以 cc- 
阅 ekm 一 司 
总 人 一 习 * 


辫 ake- 殖 ) 5 于 
一 卫 十 全- 一 一 一 一 一 0 


站 ee 一直 总 一 
3) 由 于 加 (2) ~ 及 2, 且 根据 (3.19) 式 ，VCs?) 一 0( 并 ), 因 而 当 % 丰 
够 大 时 ， , - 
A m1) nr —1)82. 


Bala -i) 
人 一 万 )" 一 | 至 一 一 一 
问 * 一 邢 )2 


从 而 5 一 


一 B+ 





于 是 


m2 1 二 
~ - 
根据 引 理 4.2 中 的 3), 有 上 
Bb— By oi). 
这 时 要 说 明 的 是 ， 利 用 Taylor 展 开 式 可 以 证 明 当 %% 大 时 ， 用 
1 ye 1 y 1 - 
TT 近似 宣 co 一 引起 的 误差 的 阶 为 (六 )， 从 而 在 其 后 的 失 


导 中 ， 这 个 误差 可 以 归 入 高 阶 无 穷 小 项 中 去 。 有 兴趣 的 读者 可 人 参 网 
Sukhatme(1954) 的 书 ， 


3) 同 理 , 当 n 大 时 ,有 
A 1 1 
CBA [Ee D]. 
从 而 根据 引 理 4.2 中 的 4), 有 
(6B):=0( 去 ). 











4) ] 杏 (2-- 呈 )| <</ 再 (5 一 万 75 一 o( 专 | 
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4.6.2 基本 性 质 
定理 .10 对 简单 随机 抽样 , 以 (4.118) 定 义 的 回归 入 计量 Wr 有 以 
下 性 质 ; 





襄 aX- zy» (4,) 


D BO) -P= te 5 
一 o(#), (4.123} 
甘 中 8 一 了 ;一 祥 一 BC(Z, 一 脏 }. 








2) MSE(Cy,)= 1 2 p+0( 蕊 大) -0(+). (4.124) 





3) H(AB[- -5) btm] 
一 心 2(C 工 -p+0(- 志 ). (4.125) 


这 个 定理 说 明了 以 下 事实 : 当 mn 大 时 ,有 
1° gr 是 近似 无 偏 的 , 且 是 可 用 的 
2 当即 大 时 ， 

GT GE (4.126) 
3° vga)=— Ce py [xc- ¥)— bw 5)]? 


1 fe Sa 
一 Ry 上 全 一 六 (om 一 了 
大 
-二 (4.127} 


是 六 (ym) 或 MSBCyw) 的 一 个 近似 估计 , 其 中 尘 是 祥 本 残 差 方差， 
定理 的 证 明 ”利用 上 一 段 中 的 记号 . 
1) B(yx)—F~— ~—HIb(z— 23)] 
,Se 一 于 }+-ne( 导 一 #) 
2): 








la. 


当 王 大 时 ， 
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BI TER)] apracs- my 








(yw) 一 字 心 一 Ch IS (nn—1) 8 
如 | 宫 ace: 一 于 )(z 一 | nnB(z— 站 )(z— 访 ) 
Em DT 《Ca 一 了 和 

1 总 sw( 工 一 至 ? 


» 


CE rs! 
五 [sK5 一 交 )s] [< TE TE 


-0(#7), 


1 裤 所 工人 一 荆 ) o(- 友 ). 


{%— ja 








于 是 BO) -PT + 
正如 前 面 已 指出 的 那样, 由 于 
i 1 


Fa ~ CS 
引起 的 误差 可 以 归并 到 后 面 的 高 阶 无 穷 小 项 中 . 
2) 令 副 一 3 十 刀 ( 轩 一 二 ), 则 根据 定理 4.8, 它 是 了 的 无 仿 信 计 ， 王 
FGD- LS1-p). 
于 是 JS 也 (gw 一 EB(gw— FY) 
et) 
= Blyr— gr) + By — YY 
十 2 再 (gz 一 加 六 区 一 卫 ) 
= BH[(3 -BY TVN) 
+2B[ty,— FY)(b— BKT—E)] 
-0( 汪 上 二) 二 二 SSG 一 +0(ahr) 
= 88(1— ro 3 
让 是 有 了 可 本 中 
8) 号- 二 了 识 -3 一 总 [(x- 咏 -Ba 一 5 











一 
是 oa 


莉 4.6 回归 估计 量 (B 取样 本 回归 系数 的 情形 ) 13? 
— BS+ .B93 —2BS 
— Sl1—p) 
的 无 偏 丁 计 . 


另 一 方面 ， 
人 一 3 一 【人 ( 扩 一 切 一 于 2 一动] 十 (一 吾 )(w 一 2 


PE 二 如 cc 本]- 卫 行 于 识 Kw- 玉 -5 一 5 
C3 
+z|o- BY 一 | 


gc YC 5 | 


+28 [eo- B) 全 一 一 一 一 


总 人 一 袜 | 
一 2 如 | (5 一 I 
-5) -6 5)?} 
+0( 拉 +0( 志 )+o( 去 ) 
-#0( 才 ) 
中 而 B= B {= [we 5)]} 


1 
ro) 

例 和 .8 ( 续 例 .2) 对 表 4.2 所 列 的 -6 的 人 为 总 体 , 所 有 可 能 
的 了 5 个 % 一 和 的 简单 随 宙 样本 的 纺 对 人 的 回归 系数 8 列 于 家 4.3 第 了 
列 中 ， 由 此 可 计算 对 总 体 均 值 了 =11 的 15 个 回归 估计 值 gr ( 表 4,3 最 
后 一 列 )， 这 起 个 gw 的 均值 为 

万 (3 一 训 (10. B184+10.71186+.… 10.4445)—10.9245. 
故 ye 的 实际 偏 居 为 ; 

五 (gur) 一 | E(w)— P= 110.9245—11| = 0.0755, 
同样 可 计算 yw 的 均 方 误差 ， 
MISB(gu) 一 盏 (gw 一 立 )2 一 0.06776. 

从 面 Vy) = MIB(Y) — LB(Y)]*~ 0.08200. 
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与 例 4.2 中 的 比 估计 gx 的 相应 数 伪作 比较 , 对 这 个 总 体 比 估计 的 均 
方 误 差 比 回归 估计 重 小 得 多 ， 这 是 由 于 前 者 的 篇 估 小 ， 其 原因 是 样本 量 
如 太 小 ， 





4.6.3 回忆 估计 是 与 简单 佑 计量 及 比 估计 重 的 比较 
车 %* 比 较 大 , 则 根据 前 面 的 讨论 , 有 
Vn) SLS p), 








Va) St RS — 2RpS ys), 


nm 
POO- EL 


比较 上 述 三 个 式 子 可 知 : 
Vy ) VD). 
郭 回归 估计 总 是 优 了 于 简单 估计 的 , 除非 p 一 0， 而 回归 悄 计 统 于 纪 佑 计 的 
亲 件 是 : 
一 PS BS —2RpS ys 
3 (ps— BRS) >0 © (B— RY):>0, (4.128) 
轩 而 除非 吾 一 如 , 否则, 回归 估计 优 于 上 比 估 计 . 

上 面 的 结论 只 有 当 % 大 时 才 成 立 ， 事 实 上 ， 回 归 俏 计量 在 小 样本 时 
交 性 质 并 不 太 好 ， 正 如 在 例 4.4 中 所 述 的 那样 ，J. 下. 有. Rao 曾 对 8 
个 自然 总 体 进行 Monte-Oarlo 模 氢 ， 当 ”小 时 ，MSB(3a)7MSE(3a) 的 
秆 平均 为 : n 一 12, 1.15,n=8,1-86;n 一 6, 工 . 拭 ， 可 见 % 合 小 , 回归 佑 计 
量 的 均 方 误差 鳃 大 ， 使 小 样本 时 ， 回 归 估 计量 均 方 误差 较 大 的 主要 原因 
是 偏 倚 较 大 , 而 两 者 的 方差 相差 并 不 显著 . 

例 4.5( 续 例 4.1T) 为 估计 某 县 小 老总 产量 , 在 全 县 困 二 576 个 村 中 
抽取 ”= 34 个 村 的 简单 随机 样本 ， 表 4.1 记录 了 样本 村 的 小 麦 产量 刀 
《4) 及 相应 的 种 植 面积 mChm?)。 和 根据 原始 数据 以 及 例 4.1 中 已 计算 过 的 
中 间 结 果 , 可 得 样本 回归 系数 : - 





玻 差 方 冀 (heb) ~ 26.428. 
于 是 总 产量 了 (与 例 4.1 一样 , 此 时 合计 多 没有 什么 实际 意义 ) 的 加 归 舍 


委 4.7 “分 层 隐 视 抽 祥 中 的 回归 估计 3 全 
计 为 : - 
.Now NUY+ 6) 
=BI6x [180.625 +3.38275(37.97847 —36.4625)] 
—78193.8(t). 
傅 。 的 方差 估计 为 
vip) = Nw(gn) = Nr 
B76 x 0-95833 x 26.498= 350117, 
oF 591.7(4). 
例 和 全 . 工 中 己 计算 得 vv( 依 p) 一 620.5(4)， ~ oF 一 3838.5Ct) 
办 此 在 些 例 中 ， 比 丑 计 与 回归 估计 都 比 简 半 估计 精确 得 多 、 而 回归 估计 
与 比 估计 的 精度 差别 不 很 大 , 前 者 稍 好 些 . 


8 4.7 ”分 层 随机 抽样 中 的 回归 估计 


4.7.1 分 别 回归 估计 

同比 估计 情形 一 样 , 在 分 层 随 机 抽样 中 , 也 可 以 考虑 两 种 形式 的 回 蛙 
估计 . 一 种 是 分 别 回 妇 信 计 ， 它 是 先 在 每 层 中 对 层 均值 或 层 总 和 作 问 归 
估计 , 然后 再 按 层 权 平均 或 相 加 ， 具 体 地 说 , 对 了 的 分 别 回 归 佑 计 是 ， 


~ 本 一 
gm 一 翁 Wahyiry 








一 总 所 [ 吕 +A(T 而)]. (4.129) 
而 对 了 的 信守 是 ; 
Pr Hom— Na[ht BB)]. (4.130》 


当 各 层 的 BB 均 事先 已 设 定时 ,gur。 与 多 部 是 无 偏 的 , 且 
VO = BP 了 一 08% 一 569o 二 ES2)。 (4.1317 
它 在 局 = 也 ~ 帮工 2 …， 癸 时 , 达到 极 小 值 
一 六) 7 wa AS 
ponyn) (ss, ) 


-于 WE Sh, (1 —R). (4.182) 
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车 局 不 能 事先 设 定 , 则 取 Bs 为 Bs 的 最 小 二 乘 估 计 : 
入 (mw -和 (on 一 起) 


和 (4.138) 
”ey 
贡 当 每 层 的 mw 都 比较 大 时 , 有 
VOI) PA gs pd, (4.184) 


它 可 用 下 式 估 计 : 
EE [和 2 pe By 
ET A A gn) 开局 (os 一 各) ] 


-Em De —73), (4.185) 


其 中 号 是 瑚 层 样本 相关 系数 的 平方 . 
与 比 估计 的 情形 类 似 , 在 采用 务 别 回 妇 估 计时 ， 有 可 能 由 于 mm 不 够 
大 , 而 造成 较 大 的 偏 倚 , 使 合计 的 均 方 误差 较 大 ， 此 时 应 慎重 使 用 、 
4.7.2 联合 回归 估计 
联合 回归 个 计 是 先 对 了 及 也 作 分 层 估 计 ， 
YO— 三 Wig Rn > Wea 
铀 将 与 了 的 联合 回归 信 计 分 别 为 : 
Wiro— Yeast BCR— Fs), “(4.186) 
PD Nyro— Pu+B(I 一 全 w). (4.187) 
当局 事先 设 定时 , 它们 都 是 元 偏 的 , 且 


Vn) = PS 288,a +t- B88). (4.188) 


它 在 尽 取 下 式 时 达到 极 小 值 : 
FE WEL fs)S n/n 


B.— 访 WACI—A SE /nn (4.139) 
会 习 Bw[ Pen, (4.140) 


其 中 me WEG/ 85, MD 
BB- Se-. 
E29 
(4.140) 式 表 了 明 B。 是 各 层 总 体 回归 系数 BB, 以 om 为 权 前 加 权 平 均 。 : 
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为 比较 分 别 加 归 估 计 与 联合 回归 信 计 , 作 最 小 方差 差 值 
Vin CYire) —V min CYirs) 
-DB 
一 守 %(Bs Bo) 0. (4.142) 


上 式 表明 : 对 最 优 的 Br 与 8 的 设 定 ， 分 别 回 归 售 计 优 于 联合 回归 信 
计 , 尤其 是 当 各 层 回归 系数 相差 大 时 , 分 别 估计 效果 更 为 显著 . 
当 及 必须 从 样本 估计 时 , 我 们 联 8B。 的 榜 本 估计 : 
， 


















































mn (na — 1) 2 
Wi 且 亏 

闻 mans — IT) 辣 ( 一 2) 
如 困 样 本 量 是 按 比 例 分 配 的 , 又 用 rw 代 将 上 式 中 的 m4 一 J， 则 (4.148) 臣 
部 可 简化 为 通常 的 联合 最 小 二 乘 估计 : 
| 加 习 (re 一 加)(oor 一 却 ) 
mm) “ 

并 不 是 在 任何 情况 下 , 5。 与 如 都 是 好 的 .例如 车 BB 都 相等 , 但 各 层 
残 差 方差 相差 较 大 时 , 则 用 5 的 与 估计 方 郑 成 反比 的 权 的 加 权 平 均 更 为 
适 宣 . 

为 计算 gr 的 方差 , 注意 

Yo— P= yr —F+ bo ss) 
一 [gs—P+BA(F—34)]+ (bBo) CT —E), 

车 bo 前 抽样 误差 可 以 忽略 的 话 , 则 


V (Ir) I 8h 2BoByent BSH), (4.145) 


(4.148) 























如 (4.144) 


它 可 用 下 式 进行 估计 : 


一 上 
90) ~ DL Pr) bom) 


- 字 EG e825 + bas,). (4.146) 
孝 各 层 的 mw 不 太 大 , 如 的 变化 也 不 大 时 , 宜 用 联合 估计 ; 而 当 B 的 
变化 较 大 ，rms 也 比较 大 时 ， 则 用 分 别 估计 效果 更 好 ， 若 屋内 回归 规律 性 


不 是 很 剖 ， 则 除非 都 相当 大 ， 耕 则 ， 通 常 还 是 用 联合 信 计 比较 保 
险 . 
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4.7.3 ”数值 例子 一 一 专业 技术 人 员 总 数 的 调查 


例 和 .6 已 知 基 市 中 央 直 扁 单 位 及 市 属 单 位 1986 年 专业 技术 人 员 
的 总 数 ， 和 欲 通过 抽样 调查 估计 1988 年 年 底 全 市 专业 技术 人 员 的 总 数 了 ， 
抽样 按 中 央 直 属 单位 与 市 属 单位 分 层 随机 抽取 .前 者 抽 和 ma 一 匡 个 单位 ， 
后 者 抽 ms= 一 20 个 单位 ， 数据 如 表 4.7 所 示 . 


示人.? 岩 业 技术 人 员 数 调查 (ye: 1988 年 底 的 数 , zs: 1986 年 底 的 数 ? 




















中 只 直属 单位 (h 一 1) | 市 属 单 位 {8 二 2) 

me Ye De i 2 W 下 Te He 
1 215 224 3158 2220 荆 87 94 | 11 |899 428 
2 |1082 1110 318 334 2 123 132 | 1 |979 104 
a 675 714 457 461 3 59 62 | 13 |1oa 107 
4 383 8393 234 248 4 14 17 | 14 |284 290 
5 180 189 465 。 378 5 657 702 | 15 |125 125 
6 633 -677 56 83 88 | 16 |6rda ?14 
7 56 61 了 208 227 | 17 |857 385 
8 812 898 8 和 45 | 18 |218 234 
9 98 101 9 28 2 | 1 |sl 868 


70 | 227 228 10 148 165 20 | 146 132 





表 4.8 计算 专业 技术 人 员 总 数 信 计量 所 用 的 层 内 数据 











为 =1( 中 央 直 属 单 位 ) 一 2( 市 属 单位 》 总 和 
rw 135 1228 W1363 
na 15 20 EE 
Wa 0.0990¢6 0.900954 

2 5 0.059259 0.049188 
Xn 75650 315612 工 一 391262 
玉 、 560.37037 257.01303 
pa 550.66567 249.60000 
E33 582.06667 233.60000 
让 298594-.258 61366.147 
SS 282927.781 54296. 568 

au 290611.166 S7708.411 

忘 1.034958 I.063498 
本 1.0271567 工 -0638372 
Ea 0.999695133 0.99948664< 





oo 
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已 知 中 央 直 属 单位 太一 135 个 ，1986 年 席 的 总 人 数 为 了 一 75650 
大 ; 市 属 单位 本 2 一 1228 个 , 1986 年 底 的 总 人 数 为 卫 s 一 315612 人 . 
我 们 对 上 述 数 据 接 分 别 比 估计 .联合 比 合 计 , 分 别 回归 估 计 与 联合 回 
归 舍 计 以 及 差 居 计 等 方法 对 该 市 1988 年 专业 技术 人 员 总 数 了 作出 合计 ， 
同时 计算 各 估计 量 的 精度 ， 为 此 ， 先 就 中 央 直 属 单位 及 市 属 单位 两 层 的 
祥 本 数据 计算 有 关 层 的 中 间 结 果 如 表 4.8( 包 括 某 些 已 知 量 ) 所 示 。 
一 、 分 别 比 估计 
一 本 
全 二 
一 工 -034958 x75650 二 .068493 x 815619— 415524, 
oP r=- ELAS + Me 一 2 高 sm) 
一 116910.2 十 24654413.8 一 25828324。 
AT 多 一 1607。 
二 、 联 合 比 估 计 
站 .一 EE 加 一 380848.8， 
全 .一双 NT 二 一 358689.8, 





R= De —1.0617776, 


at 


Ps Ps 了 一 1.0617776x 391262 一 415483, 


oF) = EE (0 + Bass, 2ssn) 
=464561. ‘06+ 2841109. 4 一 2805670, 
MolB) = 1675. 
三 、 分 别 回 归 估 计 《 当 BB 采用 样本 回归 系数 bs 时 ) 
mE Ny BD NL ba — za) 


=78264.8+337066 .6 415381, 
"Pe 汪 
-于 Ca， 鱼 - 二 -C1 一 一 并 


王 105876 四 .6= 2572275, 
NVUCP im) =1604, 
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四 、 联 合 回归 估计 ( 当 8 采用 样本 数据 估计 时 ) 


EE gry OF 
一 七 加 2 9607 一 和 .060320 
be 1.0608209, 
+ TR 


Pb 一 多) 
~— 380848.8 十 1.0603209(391262 一 358689.8) 
一 415388， 
vPro) = A) (0% 20osy0 + Dees) 
=484889 2862087 一 2796176， 
MC) 一 1673. 

五 、 差 估计 
由 于 回归 系数 楼 近 I, 故 可 用 差 估计 , 也 即 B( 或 久 ) 设 定 为 常数 工 的 


回归 估计 注意 此 时 分 别 佑 计 与 联合 估计 结果 相同 . 
全 一 马 [En 下 Wn( 加 一 喜人] 一 全 十 科 一 况 w 一 448431， 


(了 一 于 EA (s+ — 2) 
一 323661 十 1I83238302 一 18561963， 
VPa) = 4908. 
为 了 对 以 上 五 种 信 计 及 其 精度 作 比 较 , 先 将 了 的 估计 值 及 相应 的 标 


淮 差 的 情 计 和 值 列 于 家 4.9. 
到 和 业 8 专业 技术 入 员 总 数 各 种 估计 值 的 比较 













估计 方法 悄 计 慎 全 | 全 的 标准 兰 借 计 
盆 别 比 估计 415524 1607 
联合 比 估计 435433 1675 
分 别 回 归 传 计 415331 1604 
联合 回归 估计 415286 4672 
差 知 计 413421 4808 


从 表面 上 的 数值 看 ， 虞 例 的 比 售 计 与 回归 估计 效果 一 致 ， 这 是 因为 
玉 。 与 5o( 记 ,与 5,) 数 值 相当 接近 的 缘 放 ， 其 中 分 别 稍 计 比 联合 居 计 效果 
稍 好 , 这 是 因为 色 与 如 (za 与 bs) 的 数值 仍 有 一 定 的 差别 。 不 过 ， 我 们 
注意 到 比 佰 计 与 回归 和 外 计 ( 当 回归 系数 用 样本 值 时 ) 都 是 有 偏 的 ， 而 且 这 
里 的 样本 量 wm 都 不 大 , 因此 用 比 久 计 特 别 是 联合 比 佑 计 更 保险 些 、 基 于 
局 样 的 理 出 , 差 估计 尽管 标准 差 较 大 , 但 由 于 它 是 元 偏 的 ， 因 此 仍 有 采用 
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的 价值 . 


84.8 多 变量 比 估计 与 回归 估计 


从 前 面 几 节 的 讨论 中 看 到 , 当 有 辅助 变量 可 资 利用 时 , 比 居 计 与 回归 
种 计 比 简单 估计 能 较 大 程度 地 提高 估计 精度 ， 当 可 人 殿 合 用 的 轴 助 变量 不 
止 一 个 时 , 上 面 的 结果 能 容易 地 推广 到 多 变量 的 情形 , 本 节 主 要 介绍 多 变 
量 比 估计 与 回归 估计 前 思想 及 方法 ， 它 们 的 性 质 与 单 变量 的 请 形 十 分 闫 
似 ， 前 拖 节 的 许多 铺 果 可 直接 照搬 过 来 ， 故 在 本 节 中 就 不 详细 叙述 了 。 


4.8.1 多 变量 比 估计 
Olkin 《1958) 首先 将 比 估 计 推 广 到 有 2 个 辅助 变量 到 2z， 多 2， 


多 ,的 情 形 . 
定义 和 .6 设 ynx 是 了 对 第 天 个 辅助 变量 4 前 比 估 计 ，?os 是 适当 


选取 的 权 , 总 wo 一 1 则 也 前 多 变量 比 估计 为 : 


Pes 





Yun= 襄 tOpg mx 一 加 由 茧 T, (4.1147) 
其 中 负面 ,…, 5 是 相应 变量 的 群 本 均 信 , 及 …, 了 是 辅助 变量 总 栖 


的 均值 . 
这 里 的 主要 问题 是 关于 权 wx 的 选取 ， 确 定 ws 的 原则 是 使 产 (aun) 
达到 极 小 .例如 在 2= 3 的 情形 
V (gyn) — WV (In) 十 24pxtbaOovwCgrz， yrs) + (Fa) 
全 wit Dos 1 wp m0. (4.148} 
在 约束 条 件 wi 十 ws 一 1 之 下 极 小 化 上 式 ， 用 Lagrange 乘 闻 法 即 是 
极 小 化 








Vw tov VT wp et 2 mt m1), (4.149) 





HE 2p tpt 0, 
ro 
2 一 20 十 2a0sPaa 十 24 一 0. 
lo 
将 上 两 式 相 减 , 得 : 


wi(Vu— Vy) tw Pas) = 0, 
了 叉 将 wo 一 1 一 wi 代入 , 有 
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wlVu—V) +t VV wT tw Va 0." 


从 而 可 解 得 
Vw Vy Vu Vy 
“prs ”pir ‘1%) 


此 时 , 最 小 方 莽 为 





jy Vurss Vi 
Voom (Yure) =— 2 (4.151) 


在 实际 问题 中 ，VFu Vas 与 Vs 都 用 相应 的 样本 估计 量 代 替 ， 根据 
S$ 4. 中 的 结果 , 可 取 
eu 一 二 会 zcez 寺 03 — 3c,), 


Yas— 工 - 参 a(o9 二 加 一 acua)， 





四 
Vs = P24 ow oo 一 on) 











中 
-， 
2 2 2 
其 中 C-- 合 ， 4 一 - 四 -， 
9 1 Ep 
Ses 3 Ey 
Olea 一 一 = ) CO 一 一， Cy2—= 一 se 
EE YP Eb 


而 他 是 了 的 适当 售 计 ， 例 如 用 相应 的 单 变量 比 信 计 5s: 或 pa。 注意 到 
根据 (4.150) 式 , 在 确定 ti ws 时 常数 因子 -5 荆 会 不 起 作用 ， 而 在 计 
算 所 得 的 Be 的 方差 时 ,会 则 可 用 Bu 值 代 稚 , 详 见 后 面 4.8.3 段 中 的 数 


值 例子 . 
对 一 般 的 卫 , 节令 
Vgae), 天 一 下 
一 
Pr {oo a) 大 六 了 (4.159) 
记 
(VD (Vid) (4.153) 
风 
> Vw 
Wn El1, 2,., Pp), {4.154) 
Venl9ue)-|[ 训 训 7*] (4.155) 


地 #,8 多 变量 比 估 主 与 圆 归 估计 i 


4.8.2 多 变量 回归 估计 

-将 一 个 辅助 变量 情形 的 回归 估计 推广 到 多 个 辅助 变量 情形 时 ， 有 两 
种 方法 ， 一 种 是 与 Olkin 的 多 变量 比 佑 计 相 类 似 的 ， 采 用 加 权 法 ， 这 就 
是 帕 Deg Raj(1965) 最 早 提 出 的 . 

定 光 和 .9 车 girs 是 了 对 第 个 辅助 变量 入: 的 回归 合 计 ，ww 是 


适当 选取 的 权 ， 高 wm 一 二 则 了 的 多 变量 回归 合计 为 ， 


Varar 以 warr 雹 yt (4.156) 
式 中 Br 可 以 事先 设 定 ， 也 本 取样 本 回归 对 数 、 确定 ws 的 原则 与 方 
法 也 与 Olktn 的 多 变量 比 估计 类 似 ， 


另 一 个 更 为 直观 的 方法 是 早 在 1947 年 由 B. Ghosh 提出 的 利用 多 
对 条 :， 有 > …, 多 的 多 元 线性 回归 , 他 提出 的 估计 量 形式 如 下 ， 
和 8 了 的 多 元 (线性 ) 回 归 情 计 为 : 














Faun— s+ 记 Bi 2,). (4.157) 
注意 : 当 Bs 都 是 事先 设 定时 ， 全 各 形式 的 信 计 县 一 至 因此 通常 是 
取 各 为 到 对 多 > 的 样本 < 偏 ) 回 归 系 数 jz(4 一 二 2 ,)， 即 


gma 一 9 十 加 (2) 一 yg— 如 Bf 到 一 至 s)， {4.158) 
Bccn 是 渐 近 无 偏 的 ， 偏 剧 的 喉 为 0( 半 ), 且 
MBB(3ura) 一 工大 SHI-p) 40 hs). (4.159) 


其 中 忆 是 多 对 吧 ]，…， 吧 z 的 复 相 关系 数 的 平方 。 因 页 当 % 大 时 ， 
MSB(gywca) 或 六 Lys) 可 用 下 式 估 计 : 


v (guin) = (4.160) 








丈 中 是 残 关 方 大 
时 一 





-地 说 一 Di | 五 以 (wu 一念 人 ou 一 起 )] . 
(4-161) 
4.8.3 数值 例子 一 农作物 估 产 调查 


例 &.Y 为 更 精确 地 估计 某 地 区 皮棉 的 总 产量 在 对 总 体 包 含 
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的 丈 = 301 个 村 庄 中 按 简单 随机 抽样 搬 取 ”= 了 8 个 村 庄 ， 在 记录 这 些 村 
中 皮棉 的 实际 产量 % 的 同时 ， 记 录 皮 粮 的 播种 面积 zu 及 所 采用 的 良种 
比例 zs， 已 知 该 地 区 的 皮棉 种 植 总 面积 下 :一 ?4500Chm?》， 面 采用 自 种 
的 平均 比例 取 一 40.10(%), 样本 数据 见 表 4.10. 


囊 生 如 18 个 村 庄 的 皮棉 产量 及 其 播种 面积 与 良种 比例 








村 庄 号 了 产量 雏 人 D 播种 画 积 zu (bn 良种 比例 zt96) 
1 12.00 24.0 30 
2 11-88 26.4 30 
3 12.50 25.0 32 
4 I4-70 21.0 55 
5 30,00 12.5 58 
6 10.80 14.0 50 
7 15.02 35.0 35 
8 22.00 AE.0 36 
9 .40 26.0 63 
10 5.46 16.0 18 

11 7.60 20.0 20 . 
12 10.66 20.0 38 
33 21.60 35.0 2 
14 8.41 18.0 33 
25 37 .02 38.0 53 
16 17.00 25.0 43 
17 18.64 28.0 36 
18 6-65 17.0 20 





OOO 


一 、 基 本 数据 及 中 间 结 果 


N=80L n=18 
E248.84 Fo-489.9 
9—13.7967 E1—2.448889 
1 — 608.258 1 —1989.54 


如 = 35.4858 s1—74.078987 
1 718.4488 4&2—¥90.700 
sn—42.26167 sy —46.65118 
n=0.82096. r,s—0.590978 


1- 0.0522382 


ZE zs =693 
wa 38.4444 
as 一 3974 .44 
如 一 14.9671 
7 一 96.2890 
S12—11.54641 
12=0.,101011 


这 里 的 .由 示 离 差 平方 和 ,7.. 表示 ( 单 ) 相 关系 数 . 由 于 篇 幅 限 制 
各 数值 的 有 效 数字 没有 列 出 更 多 ， 而 以 下 的 实际 计算 是 根据 更 多 的 有 效 


di 
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数字 计算 的 . 
二 、 比 估计 
他 sa = 之 研一 4205.80， 
TL 
Pgs -2 Xs NFR, —4881.69, 
Ty bE] 
史 一 时 0.186425， en 一 -Sw -0.195340， 
¥ Yr 
2 3? Sue 
= 0.125036, om 一- = 0.087691, 


YR 





Ta 


3 
8- 3 -0.118989， co 一 -ae 一 0.012989, 
ra 


Wu 全 63 二 09 一 2cw 一 0.060781， 
Wags 人 会 ce? 二 03 一 20ya 一 0.1294236, 








Wo 人 edtes— cr— c= —0.014917, 
Vas—V ss Yoa — U12 
一 一 一 0.6 
WT Putra as 5568， 
一 有 1 一 :> 2 一 2 
一 一 一 0.3433、 
” VntVya- El WI1 + Woe — Babia 
从而 Pn — wiPpit wa po— 4248.98, 


__ VV pe 
-一带 


1 [p12 Cutes— Ws 
一 一 83014. 
[8014 gd 





Nopun) —181.70, 


OP) v0 (Pp) — 560158.11, 


四 





VPR) = 3236.98， 
Pm) 一 oo 一 -二 (Pn) ~ 126844.651, 
/5 区 = 356.15. 
三 、 回 妇 估计 
单 变量 同 归 估 计 
= 堪 一 0.5659， 
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Fm — B+ d(T — 2) =13.9799, 
Pi = NYw 4205.93, 


Ded s -a we ) 58169, 


VHP =241.18, 


:jE 一 0.26588, 


gua 9 + Bal Ts — za) —14.2868, 
P= Nygs— 38， 


wD) = 加 人 芭 Aw- 让 La) 116845, 


/VCP 一 341.09. 
二 沅 回 则 估计 ; 决定 二 元 回归 方程 的 回归 系数 加 、5s 的 正规 方程 为 
Dbit bebe — ly; 
Vab1t+ fanba — Lay, 














由 此 可 解 出 
B41—0.5809, 52—0.238084, 


经 方差 分 析 , 得 到 二 元 回归 的 残 差 方差， 
si 3 [ly — Bly — balys] =2.6541, 





Dua— NI9+ b(t) +6 Ts — 52)] —4317.68, 
oPure) = HD 12560.4, 


NoCByre) —112.07. 
四 、 结 果 的 比较 


上 述 结 果 可 列 成 表 4.11， 
家 4 二 两 变 攻 比 估计 和 回归 估计 与 单 变量 硼 应 估计 的 比较 





情 计 沁 法 .. 佑 计量 仑 (b 全 的 标准 差 估计 (全 
对 本 1 的 比 估计 4205 .80 236.98 
对 至 ? 的 比 估计 4331.68 356.15 
对 23 的 回归 估计 4205,93 241.18 
对 33 的 同 归 估 计 4285.93 341.09 
两 变量 比 估计 4248.98 181.70 


漆 变 垦 回 归 恼 计 4317.63 “ 112.07 
i 





号 全 9 二 相 抽 样 中 的 比 信 计 与 回归 估计 1 
在 本 例 中 两 变量 的 比 和 共计 与 回归 估计 在 精度 上 有 较 大 程度 的 提高 . 


§4.9 二 相 抽 样 中 的 比 估计 与 回归 估计 


在 对 总 体 均值 立 (或 总 和 工 ) 的 比 估计 与 回归 估计 中 都 圳 要 已 知 连 
动 变量 的 均值 有 (或 总 和 互 ). 车 及 未 知 , 则 正如 在 分 层 抽样 中 层 权 未 知 
的 情形 一 样 , 可 以 用 二 相 抽 样 ， 此 时 第 一 相 样本 用 于 估计 及， 而 从 第 一 
四 样本 中 随 视 抽出 的 第 二 相 ( 子 ) 样 本 则 用 来 构造 通常 意义 的 比 估计 和 加 
归 估 计 。 








4.9.1 比 估 计 
从 总 体 中 抽取 一 个 样本 量 为 w 的 简单 随机 样本 ， 仅 对 辅助 变量 加 以 
测定 , 获得 样本 均值 到 ， 以 此 作为 县 的 估计 ， 在 这 个 第 一 相 样 本 中 青 抽 
取 一 个 样本 量 为 ”的 简单 随机 样本 (抽样 出 - -事先 确定 )， 获 得 祥 
本 均值 g 与 束 则 二 相 样 本 中 的 比 估计 定义 为 : 
ya Halz. (4.163) 


gz 一 一 
区 


记 第 一 相 样 本 中 的 均值 为 9 Rr 它们 都 是 未 知 的 .根据 


两 步 抽样 均值 与 方差 的 一 般 公 式 (8 3.8); 
(yn)— HBa( yr) = Bie’ Haye)], 


当 n 足 静 大 时 ， BA) SR 从 而 
EB(ya)~ EY) P. {4.168) 
为 求 ga 的 近似 方差 ,注意 到 ( 当 足够 天 时 》 : 
有 (gm) = 1 二 8 一 (去 一 坪 ) 22 . 
其 中 品 是 gs 一 纺 一 Bw 的 (第 一 相 ) 样 吝 方 差 ， 它 的 均值 (如 果 忽 略 玛 与 
一 了 / 玉 的 差异 ) 是 一 了 ,一 RZ, 的 总 体 方 差 S53 一 S3+ R583 一 2 ,o。 
于 是 





Vgn) Va Ba yr) + ByVal yn) 
V9)+ (ES BCsg) 
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-( 了 一直)85( 芋 一- 二) 6093+ RS: 2g,,) 








pr 
人 J 攻 +( 计 -去 (Rr3-28e). (4.164) 
下 (ya) 可 用 下 式 估计 : 
vgn) -县 + (二 — 5) les —a Rso). (4.165) 


委 .9.3 回归 估计 

与 此 估计 的 情形 一 样 ， 样 本 量 为 w 的 第 一 相 样 本 仅 测 避 获 得 耶 的 
秸 计 名 ,从 第 二 相 和 样本 中 求 得 .3 及 术 本 回归 系数 ， 于 是 了 的 回归 估 
计 定 义 为 





了 一 攻 十 5( 到 一 五 )， {4.166) 
Ealyr) — By) + Bld ls -3)] oY’, 
于 是 
BH(gs)— BB(yr) J Ey) 一 将， (4.167) 
WP EE 


其 中 咏 = (1 一 p”)sy 是 第 一 相 妊 本 残 差 方差 ， 它 的 均值 近似 等 于 总 体 残 
差 方差 一 (1 一 p”)88. 于 是 
Vly) = VB(g) + BV sys) 
二 Fra( 了 二 (二 一 二 ) 吾 ( 吕 ) 


-合计 ao- 























J) (4.168) 
它 可 用 下 式 进行 估计 
v3) = 这 一 ( 工 -wsg. (4.169) 


第 5 章 
不 等 概率 抽样 


$5.1 一 般 描 述 


5.1.1 不 等 概率 抽样 的 必要 性 


前 几 章 讨论 的 简单 随机 抽样 与 分 层 随 机 抽样 有 一 个 共同 的 特点 : 总 
体 ( 或 屋 ) 中 的 每 个 单元 入 样 的 概率 都 相等 ， 如 果 总 体 中 的 每 个 单元 在 访 
总 体 中 的 地 位 (或 重要 性 ) 相 差不多 ， 则 这 种 基于 等 概率 的 抽样 是 理 所 当 
然 的 选择 。 等 概率 抽样 不 仅 实 施 简 单 , 而 县 相应 的 数据 处 理 公式 也 简单， 
但 是 在 许多 实际 问题 中 ， 我 们 还 需要 使 用 不 等 概率 抽样 (eempling with 
unequal probabilities)。 一 种 情况 是 调查 的 总 体 单元 与 抽样 总 体 的 单 
元 可 能 不 一 致 ， 例如, 某 学 校 欲 对 学 生 的 家 庭 情 况 进行 调查 , 调查 总 体 是 
全 校 学 生 的 家 庭 ， 在 这 些 家 庭 中 , 许多 家 庭 只 有 一 个 孩子 在 该 校 就 读 , 但 
也 有 些 家 庭 有 两 个 或 两 个 以 上 的 孩子 在 该 校 就 读 . 从 抽 祥 角度 来 说 , 将 学 
生 作 为 抽 祥 单元 是 方便 的, 因为 相应 的 抽样 框 是 现成 的 。 而 另 一 方面 , 从 
调查 角度 而 言 ， 对 每 个 (学 生 ) 家 庭 实行 等 概率 抽 祥 又 是 合理 的 . 这 祥 就 
产生 了 一 个 问题 ， 车 对 学 生 实 行 等 概率 抽样 ， 则 每 个 家 庭 被 拍 中 的 概率 
并 不 相等 ， 鲍 如 有 两 个 孩子 在 该 学 校 就 读 的 家 庭 入 样 的 概率 是 只 有 一 个 
孩子 在 该 校 就 读 的 家 庭 入 样 役 率 欧 两 党 ， 关 此 ， 为 了 使 每 个 家 庭 入 样 的 
概率 相等 , 就 只 能 对 学 生 进 行 不 等 概率 抽样 ， 方 法 是 : 对 每 个 学 生 登 记 其 
家 庭 在 该 校 就 恋 的 学 生 人 数 ， 每 个 学 生 的 家 庭 入 样 的 概率 应 与 这 个 数字 
成 反比 . 

另 一 种 需要 用 到 不 等 概率 抽样 的 情况 是 ， 抽样 单元 在 总 体 中 所 圳 间 
地 位 不 一 至 .例如 车 用 抽 禅 方法 估计 全 国 科技 人 员 在 近 五 年 内 的 流动 总 
数 , 那么 大 的 单位 (研究 所 、 高 等 院 校 .企业 单位 等 ) 显 然 比 小 单位 重要 得 
多 、 类 似 的 例子 还 有 通过 对 企业 的 调查 佑 计 菜 地 区 某 一 时 期 内 的 总 产 
值 , 对 商业 网 点 调查 估计 该 地 区 的 商品 零售 总 额 等 等 ， 在 这 些 例子 中 , 对 
单位 (包括 工厂 商店) 进行 等 概率 抽样, 估计 效果 一 般 不 会 很 好 ， 落 对 单 
位 进行 不 等 概率 抽样 ,使 大 单位 入 样 的 概率 大 ,小 单位 入 磋 的 概率 小 ,就 可 
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大 大 提高 估计 前 精 度 ,' 单 位 的 大 小 可 用 适当 的 量 来 表示 ， 例 如 研究 所 的 
科技 人 员 数 ， 企 业 与 商店 的 固定 资产 或 流动 资金 总 知 等 . 最 重要 的 一 种 
不 等 帮 率 抽样 乃 是 使 每 个 单元 入 样 的 概率 与 该 单元 的 大 小 成 比例 的 抽样 
(sampling with probabilittes proportional to sizes). 

第 三 种 需 用 不 等 概率 抽样 的 情况 是 为 了 改善 估计 量 的 特性 .在 &S4.4 
中 提 到 的 Lahiri 比 佑 计量 即 是 其 中 一 个 例子 : 每 个 可 能 的 样本 若 被 抽 中 
的 概率 与 样本 中 单元 的 辅助 变量 之 和 成 正比 的 话 ， 则 坡 此 进行 不 等 概率 
抽样 所 得 到 的 样本 , 用 通常 的 比 估计 方法 所 得 前 估计 量 是 无 偏 的 . 

总 之 ， 在 实际 工作 中 需要 我 们 到 常 采用 不 等 概率 不 样 . 在 以 后 几 章 
中 可 以 看 到 对 于 整 群 抽样 .多 芥 抽 样 玫 系统 铀 样 , 不 等 概率 抽样 是 一 种 相 
当 常 用 的 抽样 方法 .另外 , 从 上 面 列举 的 情况 也 可 看 到 , 内需 使 用 不 等 概 
率 抽样 的 场合 ， 必 须 提供 总 体 单元 的 某 种 辅助 信息 , 例如 每 个 单元 的 “大 
小 "度量 好 , 或 辅助 变量 芝 ; 等 。 


565.1.2 不 等 概率 抽样 的 分 类 


不 等 概率 抽样 可 按 多 种 原则 进行 分类 . 鉴于 不 等 宏 率 抽样 同时 会 带 
来 县 标量 估计 及 其 方差 策 计 的 复杂 性 , 为 了 简化 起 见 , 人 们 常 使 用 放 回 搞 
样 : 每 次 在 总 体 ( 或 层 ) 中 按 一 定 概 率 抽取 一 个 单元 ， 抽 到 后 放 冶 总体 ， 再 
进行 下 一 次 抽样 , 每 次 抽样 都 是 独立 的 。 在 另外 一 些 场合 , 为 使 抽样 的 效 
率 更 高 , 也 使 用 多 种 不 放 回 抽样 .其 代价 是 ; 由 于 再 失 了 独立 性 , 无 论 是 折 
样 方法 还 是 方差 估计 , 者 要 比 放 回 抽样 繁复 得 多 ， 另 一 种 分 类 是 ; 视 每 次 
抽样 ( 放 回 抽 桩 的 情形 ) 概 率 或 每 个 单元 的 入 桩 概率 (不 放 回 抽样 的 情形 ) 
是 否 严 格 地 与 单元 的 大 小 成 比例 ， 另外， 看 样本 量 %* 是 固定 的 还 是 随机 
的 。 最 重要 的 情形 万 是 当 m 固 定 ， 且 上 述 概率 与 单元 大 小 严格 成 比例 的 
不 等 概率 手 样 - 以 后 我 们 将 这 种 情形 的 放 回 抽样 称 为 PPS 抽样, 称 相应 
的 不 放 回 抽样 为 "PS 执 祥 . 

对 于 不 放 回 抽样 , 又 有 以 下 刀 种 抽取 方式 ; 

一 、 逐 个 抽取 方法 (draw-by-draw procedure) 

每 次 从 尚未 入 样 的 单元 中 以 一 定 的 概率 抽取 一 个 单元 ， 这 个 概率 通 
常 与 已 经 入 样 的 单元 有 关 , 车 无关 ， 刚 称 这 组 概率 为 工作 入 站 (working 
probabilitieey) 。 

二 、 重 抽 方 法 (rejeotive procedmre) 

以 一 定 概 率 逐 个 进行 放 回执 祥 , 车 一 旦 抽 到 重复 单元 , 则 放弃 所 有 已 
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抽 到 的 单元 , 重新 抽取 ， 直 至 抽 到 规定 数目 且 所 有 人 入 样 单元 都 不 同 为 止 。 

三 、 全 样本 方法 (whole sample procedure) 

对 每 个 可 能 样本 规定 一 个 被 抽 中 的 概率 ; 按 这 个 概率 一 次 抽取 整个 
样本 . 

、 系 统 抽取 方法 (systematic procedure) 

将 总 体 单 元 按 某 种 顺序 排列 ， 并 将 规定 的 单元 入 样 概 率 ( 或 其 倍数 ) 
累计 起 来 , 并 确定 抽样 问 隔 , 在 这 个 范围 内 产生 一 个 随机 数 以 确定 初始 单 
元 , 然后 按 上 述 抽样 闻 隔 确定 其 余 的 样本 单元 ， 

际 了 上 述 以 外 ,还 有 其 他 一 些 抽 样 方法 .但 在 本 章 中 , 我 们 只 介绍 车 
干 常用 且 较 为 典型 的 方法 , 其 中 系统 抽取 方法 将 在 第 8 章 中 再 作 介 绍 . 


§5.2 放 回 不 等 概率 抽样 与 Hansen-Hurwitz 估计 最 
5.2.1 多 项 抽样 .PPS 抽样 及 其 实施 方法 
定义 .1 设 乒 ,Zo，…,Zy 是 一 组 概率 ,党 如 一 1， 技 这 组 概率 对 
总 钴 中 的 六 个 单元 进行 放 回 抽 祥 , 每 次 抽 到 第 名 个 单元 的 概率 为 多， 独 
立地 进行 这 样 的 插 样 中 次 , 则 称 这 种 不 等 概率 抽样 为 多 项 抽样 (multino- 
mial pampling). 
上 述 抽 样 亡 以 称 为 "多 项 独 样 ”是 因为 车 令 去 是 总 体 中 第 : 个 单元 在 


次 抽样 中 被 抽 中 的 次 数 , 则 (8 如，…， 经 ) 的 联 会 分布 是 以 下 的 多 项 分 
布 (为 简化 记号 起 见 , 仍 以 志 记 它 的 实际 取 值 )， 

















一 全 .已 
tp!l ety! Ea 
根据 多 项 分布 的 性 质 (证 明 完 全 与 引 理 2.3 类似, 这 里 从 略 ), 有 
| (te) =n5,, (6.9) 
VO) = 2), (5.3) 
Cov (ts, 4) = —n2Z21 GFN (6.4) 





特别 当 每 个 单元 具有 一 个 说 明 其 大 小 或 规模 (size) 揭 度量 对, 时 , 鲍 

如 单位 的 职工 人 数 .农场 的 耕地 面积 .工厂 的 产 德 或 该 单元 调查 指标 在 上 
一 次 普查 时 的 数值 等 等 , 则 可 取 

= -型 


-二 
了 


.5) 
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其 中 大 高 ai 是 总 体 中 所 有 单元 的 “大 小 ”之 和 , 显然 ， 此 时 有 六 和- 


1， 这 时 的 多 项 抽样 由 于 每 个 单元 在 每 次 抽样 中 的 入 样 概率 与 单元 大 小 
成 比重, 放 称 为 ( 放 国 的 ) 与 天 小 成 比例 的 祝 过 要 样 (aampling with pro- 
babiliiy proportional to size), 也 即 在 前 节 提 到 过 的 PPS 抽样 . 

允 项 抽样 是 最 简单 的 不 等 概率 抽样 ， 最 早 由 Hansen 与 Hurwiiz 
4943) 提出 ， 但 “多 项 抽样 " 这 个 名称 则 退 至 4963 年 由 Hartley 与 
Rao 提出 . 

实施 多 项 抽样 有 两 种 方法 ; 一 是 所 谓 代 码 法 . 在 PPS 抽样 情形 , 通 
过 对 MM; 的 累计 ， 对 每 个 单元 转 以 一 个 与 Ms 和 等 的 代码 数 (很 定 所 有 欧 
WY, 都 为 整数 , 若 不 然 , 可 乘 以 某 个 倍数 .对 一 般 的 多 项 抽样 , 也 总 可 找到 
这 样 一 个 整数 于。 使 所 有 的 KoG: 组 为 整数 ;}。 每 次 插 样 产生 一 个 
于] 之 闻 的 随机 数字 (整数 ), 设 为 me, 则 代码 mw 所 在 的 单元 入 样 . 

例 5. 工 设 某 个 总 体 共 有 玉 一 8 个 单元 ,相应 的 大 小 用 , 及 赋予 的 代 
码 如 表 5.1 所 示 . 

表 5.1 用 代码 法 进行 多 项 (PP8) 拍 样 

















了 
1 
2 
3 
4 
5 
6 
7 
8 

三 





车 nw 一 2, 则 先 在 [1, 32] 中 产生 一 个 随机 数 , 设 为 17, 于 是 第 4 个 单 
元 入 样 ; 再 在 [1, 39] 中 产生 第 二 个 随机 数 , 设 为 5, 则 第 7 个 单元 入 样 . 
代码 法 对 六 不 太 大 时 是 适用 的 , 但 当 如 很 大 时 , 就 很 不 方便 此 时 可 用 
Lahiri 提出 的 方法 ， 方 法 如 下 , 令 1* 一 ZaXfM4}, 每 次 抽取 一 个 [1,，N] 
范围 内 的 随机 数 色 及 叶 ， 王 "] 范 围 内 前 随机 数 mm, 车 ML4>>m, 则 第 个 单 
元 入 样 ， 否则 ， 生 抽风 mm)。 此 时 第 宇 个 单元 的 入 样 的 概率 与 于 ,成正 
比 , 从 而 2 一 MM. 
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5.2.2 Hansen-Hurwitz 估计 量 及 其 性 质 

定理 5.1 车 纺 , ge "gr 是 按 2 为 入 样 概率 的 多 项 抽样 抽 得 前 
祥 本 指标 值 ， 相 应 的 2; 值 为 zp,，…; zn 则 总 体 总 和 了 的 以 下 估计 
( 称 为 Hangen-Hurwitz 估计 ) 





了 ua- 二 襄 妇 (5.6) 
是 无 偏 的 , 且 
VC9aw)- 直 识 2(-) 5.7) 
-i 站 全 -号 ) (6.8) 
-9 
叉车 %>1, 则 

v(P gs) =— zy SE Pa) (5.10) 

是 玖 ( 史 aa) 的 无 偏 估计- 


证 明王 引进 随机 变量 B=I 2, …, NN): 
1 习 开 ， 
ru- 六 pe 
于 是 根据 (5.23)~(5.4) 式 ,有 
了 gn) 于 高 琴 8)- 襄 P= 了， 


VPs)— 言 记 名 且 rco+a 避 加 号 下 core  g] 








= 去 [ 富 ( 到 : 5 人 一 5 各 区 3 | 
-去 访 至 (1 如) -2 访 襄 YY 
~ 让 妆 - 襄 (712 广 7Y) 
-"* 访 受 - 王 ] 
-sr). (B11) 


为 证 明 (5, 约 式 , 注意 到 
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了 风 
1—Z= ZZ Gy 
Fl EE 了 
PED 


(1) 一流 
训 否 290- 入 总- 碎 





sr32 VIZN ， 
- 凑 训 (经 训 1 万 De). 


将 上 式 代 入 C5.11) 式 , 即 有 
7) 


1 
nm 
1 过 忆 FY,_Y 
一 去 训 高 52 到- 号 ) 
为 证 明 o( 依 gn) 是 了 (全 sz) 的 无 偏 居 计 , 注意 到 
请 gs ) 一 六 委 -YY -Pss—Y), 


I\ fl 





于 是 有 
n(n—1I)BEv(CP zm)] 
忆 [ 冯 六 (和 -7 了 )] —nB(Pgg—Y) 


人 7 ) a ] -ny (Das) 


= 
x 
-x 访 至 -了 ) ZnV (Fara) 


—mp (Darn) —nV (Pun) 
=ntn— lV (Pe). 
其 面 奋 [o( 父 zz)] 二 VPan). 
证 明史 ”由 于 多 项 抽样 是 m 次 独立 地 从 同一 总 体 中 进行 的 抽样 . 我 


们 将 分 xz 看 成 是 有 { 基 3 | 个 “总 体 ”独立 地 抽取 前 祥 本 
量 为 "的 一 个 样本 的 平均 娄 ， 反切 + 的 概率 为 Zp， 于 是 妃 (全 nz) 等 于 

该 "总 体 "的 均值 ， 后 者 为 加 马 好 A 全 za 是 无 偏 的 ， 又 样本 均 
全 en 的 方差 PC 下 为 < 体 ' 方 妆 的 于 ,而 “总 体 * 方 关 按 定 叉 检 好 
为 襄 2( 妇 了 】， 从 而 ,7) 式 成 立 . “ 沾 体 ” 方 基 可 以 用 祥 本 方 六 


宫 ( 妈 一 了 wz )】 信 计 ， 后 者 是 前 者 的 无 仿 信 计 ， 于 是 vC 估 sx) 一 











二 辫 
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0 襄 ( 芋 了 wz) 是 F(zs) 的 无 偏 舍 计 . 和 


从 定理 5.1 可 以 看 出 ， 多 项 抽样 的 估计 量 及 其 方差 估计 都 是 十 分 简 
单 的 , 因此 这 种 抽样 在 实际 工作 中 应 用 相当 广泛 ， 


5.3.3 数值 例子 一 一 职工 人 数 的 调查 

例 5.2 玫 吕 .2 是 某 系统 全 部 36 个 单位 的 上 一 年 职工 人 数 开 * 及 当 
年 职工 人 数 了; 的 数据 . 以 :作为 单位 天 小 ML, 的 度量 ， 对 单位 进行 
PPS 抽样 , 估计 全 系统 当年 职工 总 人 数 了 - 
表 5.3 某 系统 各 单位 的 上 一 年 与 当年 职工 人 数 
































单位 号 
1 18 231 255 
2 20 15 24 
3 1 172 181 
4 22 3d 2343 
5 23 312 333 
6 24 3551 371 
了 25 252 283 
8 26 194 210 
9 27 149 166 
10 28 173 189 
1 29 318 344 
12 30 204 327 
13 31 52 63 
14 32 188 174 
15 33 97 122 
26 34 218 242 
17 35 47 型 
18 






设 实际 共 抽 得 和 个 样本 , 每 个 样本 的 样本 量 均 为 6. 4 个 样本 抽 得 的 
单位 号 码 如 下 . 

样本 1 @, @, @, 1, ®, Bi 

样本 II @, @, ©, @, @, ©; 

样本 TII @, @, @, @, @, @:; 


祥 本 IV 四 ， 轩 ,四 ,四 ,， 四, 时. 
对 每 个 样本 ala 一 I 2, 3, 4)， 用 Hansen-Hurwriiz 估计 时 估计 全 - 
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系统 当年 职工 总 数 了 ,为 方便 起 见 , 令 
a 
Ei 
Ya sy 
VA) 一 F 亲 襄 ( 符 -)， 
岗 ,= ZF 


oP) = TD). 
其 中 工 一 18457 是 上 一 年 职工 总 数 . 
注意 到 将 所 有 4 个 样本 合 在 一 起 , 即 得 到 一 个 4 一 24 的 新 婵 本 , 对 这 
个 样本 同样 可 计算 参与 w 全 ) 计算 结果 列 成 表 5.3. 
表 5.8 对 表 5.3 的 总 体 进行 PP8 抽样 ,对 了 的 估计 及 其 精度 





料 本 号 严 1 2 3 4 综合 
吏 工 .0463548 = 1.0772528 1.0490758 1.0652787 1.0594904 
Po 19312.6 19882.8 19362.8 19661.8 19555.0 

~ 0.015584 0.007271 0.017742 0.019740 0.007823 

vn 287.6426 134.20038 327.4601 364.3344 144.3955 





由 于 方差 估计 的 不 稳定 , Mw( 依 。) 的 值 在 所 抽 得 的 4 个 样本 中 有 较 
大 的 变化 . 其 中 第 二 个 样本 的 尺 信 。) 明 显 低 居 了 痰 (了 。). 随 着 样本 量 的 增 
加 , o( 拿 ) 的 稳定 狂 也 将 提高 对 于 综合 样本 , Ve( 闻 。) 的 信 应 是 比较 可 
靠 的 。 另外 , 根据 表 5- 匀 的 数据 ,可 计算 实际 的 了 一 19583, 当然 也 是 综 
合 样本 的 实际 估计 误差 最 小 . 
还 有 一 种 从 所 得 二 个 样本 中 获得 的 综合 巾 计 及 其 方差 估计 的 方法 。 





令 
允 一 玉 避 名 一 19555.0， 


去 一 介 *)2 一 17879.81 





风 v(P*)= a 
- 也 可 作为 o( 傅 *) 的 入 计 ， 相 应 的 标准 差 为 
Mo(F*) =133.7154. 
注意 在 计算 w( 全 *) 时 并 没有 用 到 尼 傅 。) 的 数据 ， 是 完全 从 样本 估计 
量 出 发 的 。 这 提供 了 一 种 复杂 样本 方差 估计 的 方法 ， 关于 这 种 方法 , 详 
见 第 9 章 的 讨论 . 
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3§5.3 不 放 回 不 等 概率 抽样 与 
Horvitz-Thompson 估计 量 


5.3.1 不 放 回 不 等 概率 抽样 与 包含 概率 

此 讨论 的 放 回 抽 祥 , 虽然 实施 方便 , 且 益 体 参 数 估计 及 其 方差 估计 
也 简单 , 但 有 两 个 主要 缺点 - 

工 直观 上 漫 有 必要 将 同一 单元 重复 进行 测 查 (观测 )， 因 此 ， 放 回 抽 
祥 记 得 的 祥 本 的 代表 性 比 避 应 的 不 放 回 抽样 差 ， 不 易 被 实际 调查 者 所 接 
受 





2. 对 间 样 的 样本 量 ， 放 回 抽样 的 精度 比 不 放 回 卸 样 的 差 ， 也 即 效率 
较 低 。 尽管 不 放 回 抽样 在 许多 情况 下 方差 不 易 求 得 , 但 从 简章 随 机 抽样 
情形 可 知 (参见 & 2.5), 不 放 回 抽样 的 方差 是 相应 的 放 回 抽样 方差 的 (N 一 
D/A 一) 售 , 也 即 约 为 1 一 了 售 。 当 了 不 能 忽 路 时 ， 这 个 因素 是 需要 认 
真 考虑 的 . 

在 不 放 回 不 等 概率 抽 禅 中， 总 体 中 每 个 单元 被 包含 到 样本 的 往 率 即 
入 样 概 率 wm 一 卫 ,(%) 及 任意 两 个 单元 都 包含 到 样本 的 概率 w= PP.(6, 人 
起 着 十分 重要 的 作用 , 它们 通称 为 包含 概率 (inelusion probabilities). 

引 理 5.1 对 国定 的 ,包含 概率 满足 : 





1) em (5.12) 
习 总 “= Cn Lor (8.18) 
3) 计 襄 mw~ 雪 tn 一 D. .6.14) 


证 明 1》 是 显然 的 
a) 总 uPAOPAIID -mp nD 
3) 家 总 一 子宫 总 一 一 DD 宫 Ni= 过 n(n—1), 时 


对 不 放 回 孝 样 , 我 们 最 感 兴趣 的 是 每 个 单元 入 样 慨 率 与 其 大 小 2; 严 
:将 成 比例 的 情形 , 当 mn 辐 定时 , 记 如 .一 MW/ 和。( 一 商用 1), 此 时 即 有 ， 


m= NZ. (5:15) 
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以 后 我 们 将 此 种 情形 的 抽样 简称 为 严格 的 IPS 抽 料 。 

严格 的 xnPS 抽样 , 不 仅 实施 复杂 ， 而 且 由 于 此 时 ws 不 易 求 得 , 方差 
估计 也 很 复杂 ， 特 别 是 当 n 比较 大 时 ， 有 时 简直 不 可 能 。 一 个 极端 的 情 
形 是 当 ?一 好 ,此 时 所 有 单元 都 入 样 , 从 而 必然 是 等 概率 的 . 事实 上 , 严格 
药 XPS 抽样 具有 在 ”一 2 时 才 有 一 些 比较 简单 旦 实用 的 方法 对 一 般 的 . 
n>3,， 严格 的 rPS 抽样 相当 复杂 . 但 有 玫 种 非 严格 的 方法 可 供 司 用 ， 
Brewer 与 Hanif(1988) 总 结 了 50 种 不 放 回 的 不 等 概率 抽样 , 但 能 够 在 
实际 中 方便 应 用 的 却 为 数 不 多 . 


5.3.23 Horvitz-Thompson 售 计 量 及 其 性 质 


对 不 放 回 不 等 概率 抽样 ，w; 是 第 单元 的 包含 概率 ，Horvitz 与 
Thompson 在 1953 年 提出 了 对 总 体 总 和 了 的 以 下 估计 量 : 


他 ar 一 宝生 (5.16) 


人” 














此 后 我 们 称 全 zz 为 Horvitz-Thompson 估计 量 . 
与 放 回 抽 样 情形 的 Hansen-Hurwitz 合计 量 相 类 僻 , 由 于 zi( 名 4) 凡 
是 第 个 单元 的 属性 ， 故 每 个 观测 值 % 在 估计 量 中 的 权 是 不 随 该 单元 在 
何 时 用 何 种 方式 批 得 而 改变 的 ， 
定理 5.2 车 4>0G6 一 1 3,…, 太 )， 则 Horvitz-Thompson 估计 - 
全 ar 是 了 的 无 偏 估 计 , 其 方差 为 : 





VPse)- 宙 车 YHta 六 YY 6.17) 
当 和 n 辐 定时 , 又 有 
VPar)= SE me (Ey.: (5.18) 
总 EE i 


rs | 
证 明 ”引进 随机 变量 | 


人 519) 


”Lo， 理由 
则 
BCm) = ms; (5.20) 
Vg)= ml— oa), (5.21} 


Oov(la, 8)— mmars (Gd). | (5 .2 
些 时, 他 nz 可 表 戌 ; 
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pm (5.28) 
于 是 吾 ( 全 em) 一 旺 Er pla)— 以 了 一 了 


FCP)- 访 于 play +a 训 让 TE Cov(e, 0) 


= -my Fisk 
各 页 re Ts 
当 % 固 定时 , 根据 引 理 5.1, 有 
召 {mes — m4) — mt 总 ein Ty 


一 ozi(m 一 oz 一 (a—Dm— ml —m). 





从 而 
襄 三 竺 了 训 入 HE) 
-六 [+] 
故 


NW 如 Yo? /PY 开工 
7 人 ao 一 祝 襄 (mm -mo[ E) +(H) 一 3 | 
> 加 (opis — os) ( 亚 


为 获得 方差 丫 计 , 我 们 有 以 下 的 定理 : 
定理 5.8 车 所 有 的 m70, WO 人 了 3， ,6 天 力 ; 则 
v(Par)— 蛋 革 A 信 +2 言语 yy (5.24) 
iF ws 
是 六 ( 允 sz) 的 无 偏 信 计 . 又 当 呈 国定 时 ， 
areg( 人 km) 一 襄 襄 和 一 “ (5.25) 
也 是 全 as 芍 逃 偏 居 计 ， 
证 明 ” 仍 引进 随机 变量 @($ 一 I 2, -…, 和 ), 则 
ven)- 训 ta Yy; 


Ee 


2 














及 而 
BoPse)]1 一 襄 


当 刀 固定 时 ， cal 了 可 雪 现 


?3 立 er YY V (Far). 


EE ER 
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3 ON 一 Tv 了 ,3 
bd mk EE 
vres( 了 Pen) 一 部 训 人 一 ), 


Ti Es oy 

从 而 BEvres(P am)] -高 名 orms 一 Was) (县 一 ) 一 V (Yar). 

在 实际 问题 中 , v (他 57) 与 wres( 六 zz) 都 有 可 能 取 负 值 , 这 样 的 方差 舍 
计 当 然 还 不 够 理想 ， 相 对 来 说 , weres( 闻 sr) 比 o( 和 am) 稳定, 取 负 值 的 可 能 
竹 小 得 多 . Vijayan(1975) 证 明 卫 在 ”一 公 的 情形 ，wree{( 介 ar)》 是 唯一 可 
能 的 恒 为 非 负 的 方差 估计 . wras(*) 是 由 Sen(1953) 提出 并 由 Yates 与 
Grundy(1958) 首次 用 于 固定 和 的 情形 ， 故 它 通常 称 为 Yates-Grundy- 
Sen 佑 计量。 


35.4 几 种 严格 的 不 放 回 XPS 抽样 方法 


本 节 介 绍 几 种 比较 实用 前 严格 不 放 回 XPS 抽 样 方法 ， 正 如 8 互 , 工 所 
指出 的 , 这 里 的 “严格 不 放 回 xPS” 是 指 样 本 量 %% 固 定 ， 严格 不 放 回 ， 包 含 
概率 mm 严格 与 单元 大 小 成 比例 , 即 wm 一 2 如 。 我 们 先 介 绍 适用 于 mn 一 3 的 
方法 , 然后 讨论 适用 于 ”>2 的 一 般 方法 . 


5.4.1 z= 多 的 情形 


对 于 n 一 2 的 情形 , 在 总 体 (或 层 ) 中 仅 需 抽 2 个 单元 ， 为 了 保证 是 不 
放 回 的 , 故 一 般 采 用 逐个 抽取 法 . 先 按 给 定 的 和 概 率 在 总 体 中 抽取 第 一 个 样 
本 单元 ,然后 在 剩 下 的 间 元 中 再 按 给 定 的 概率 抽取 第 二 个 祥 本 单元 。 上 
述 概 率 要 保证 最 终 得 到 的 样本 单元 被 抽 到 的 概率 mr 一 2Z, 此 时 包含 概率 
mi 即 是 包含 单元 与 了 药 样 本 被 抽 中 的 福 率 ， 

、Brewer 方法 (2968) 

车 对 所有 的 如 都 有 Zi 去， 则 两 个 样本 单元 的 抽取 方法 是 ， 第 一 个 
间 元 按 与 -好 C3 于 成 比例 的 概率 抽取 第 二 个 单元 则 在 简 下 的 困 一 
个 单元 中 按 与 Gy 成 正比 的 芒 率 狼 取 。 下面 证 明 按 这 种 抽样 方法 有 中 -~ 
22 

令 

(12) 1 各 2 
了 =- 训 fa3F - 吝 训 (5.+ 二 多 zy-)- (+ 2 
(5.928) 
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于 是 第 一 个 样本 单元 抽 到 单元 的 概率 为 





Zi(120) 
DIAEZD’ (5.27) 
而 第 一 个 样本 单元 扫 到 j, 第 二 个 样本 单元 直到 6 的 概率 应 为 
2 Za0-20 ZF (6.28) 


3-2 DU-a2)™ DO-28) 
因此 , 第 二 次 抽 到 单元 % 的 概率 ， 即 是 上 述 概 率 对 5 的 和 。 于 是 在 两 
次 抽样 中 , 抽 到 单元 4 的 概率 mi 应 为 

















A BA 万 
一 = 22 es pz $+ + 总 艇 -] 
也 _ 
各 [ 高 7 人 0]- 和 D7 Gan) 
根据 5.28) 式 ， 于 区 计算 由 哇 元 5 及 组 万 的 样本 被 斩 生前 概率 
gr 2 (5 1 )- 22,2; , 1—Z,— 
MM Tz, 1 1 a; D “ag) i 2 
AGH11 Zo 2) . (5.30) 
(1 —22) (1— 22)|1+ 襄 了 如 -Sz | 


于 是 根据 HHorviiz-Thompson 信 计 , 总 体 总 和 了 的 合计 为 
多 5 一 - 瑟 填 人 姑 . 一 YY 生 ). (65.31) 
my Ty ER By 
根据 (5.30) 及 (5.25) 式 , 即 可 得 到 jp 的 Yates-Grundy-Sen 估 
计 wrea(f. 353), 注意 到 
Z 
GT-2200 20) [+ y+] 
1—22)0—22)+2(1— 22) + F122,) 








1 2 
从 而 2 
(4—28)(1— TE 3) 
MYALE = Wis, 《6.33) 
从 而 ores( 傅 5) 全 为 正 , 


二 、Durbi 方法 (1967) 
第 一 个 样本 单元 以 概率 ZZ 抽取 , 设 第 个 单元 入 样 ; 第 二 个 禅 木 单 


元 以 与 21 (gg) 成 正比 的 概率 抽取 , 为 计算 om 与 mu, 令 
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和 
D 总 3 五 5) 


1— 2Z, 
“a -二 2 





=11 训 I 4 =2D. (5.33} 
于 是 - 
a 1 1 
一 2 Zs: (Th Sg; + 
二 Zt 如: 多 二 - (5.34) 
ww a2 S27 + I -Ss )/3D - 
-3 
好 (+) C5.35) 


这 与 Brewer 方法 的 ws 入 和 因此 Durbin 方法 实际 上 与 Brewer 方 法 
是 等 价 的 . 

三 、Hanurav 方法 (1987) 

两 个 样本 单元 的 抽取 按 以 下 步 又 进行 : 

1) 按 五 的 递增 顺序 将 总 体 单元 重新 排列 

BE Loy 
3) 以 
B= 2 (Sy Ze (5.86) 


为 成 功 酸 率 作 Bernoulli 试验 ， 
3) 若 分 中 的 试验 成 功 , 则 第 好 个 单元 入 样 ， 再 以 与 和 成 比例 的 概 








率 抽取 另 一 个 单元 . 
4) 车 外 中 的 试验 失败 , 则 令 
GiB, Bh Zs b=1, 9, +, N-1), 《5.37) 
Zi 4, 2 (5.38} 
P20 
以 下 而 的 工作 概率 抽取 第 一 个 昔 元 ， 
of 一 3GT 
人 Oa 一 站 
2 





(5.30) 
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在 抽 得 的 单元 顺序 后 面 (注意 ， 此 时 ax 必 为 0) 的 单元 中 ， 以 等 概率 抽取 
一 个 单元 作为 第 二 全 样本 单元 . 
按 此 种 抽 祥 方法 , 可 证 明 
opi 一 2Zi, 
记 (< 了 5) 
VHT | 2Z5 wl1—8) 
TB tN IN). 
四 、Narain 方法 (1951) 
计算 一 组 工作 概率 中， 用 此 概率 抽取 第 一 个 单元 ， 然 后 在 剩 下 的 
育 一 个 单元 中 以 与 如 成 比例 的 概率 抽取 第 二 个 单元 , 此 时 





(5.40) 


we 
mt 了 (5.41) 
mu 278 [Tz + dz]. (5.42) 


为 保证 方法 是 严格 TEFS8 的 , 21 必须 注 足 使 每 个 m=22, 因此 Zi 适 
用 迭代 法 进行 计算 , 读者 可 参阅 Brewer 与 Hanif 的 书 《Sampling with 
Unequsl Probabilities»>(1983) 中 的 附录 A. 

五 、Fellegi 方法 (1968) 

这 个 方法 与 Narain 方法 类 似 ， 直 接 以 Z, 的 概率 抽取 第 一 个 样本 单 
元 , 不 放 回 , 再 以 与 2 成 比例 的 概率 如 7 抽取 第 二 个 样本 单元 ,27 也 需 用 
迁 代 法 求 上 出 . 


5.4.2 n>2 的 情形 

在 实际 应 用 中 , m=2 的 情形 通常 用 在 先 对 单元 分 度 ， 在 每 层 氏 抽取 
2 个 单元 的 情况 . 对 于 一 般 的 mw 必须 用 本 段 介绍 的 方法 ， 不 过 此 时 包 会 
概率 ms 的 计算 通常 极为 复杂 、 

一 、Rao-Sampford 重 抽 法 (1965, 1987) 

这 种 方法 是 先 以 Z1 的 概率 抽取 第 一 个 样本 单元 , 然后 以 与 

ER 
mT (5.48) 

成 比例 的 概率 拓 次 放 回 抽取 4 一 1 个 单元 ( 设 所 有 的 到 <). 在 此 过 
程 中 , 一 县 有 单元 重复 被 抽 中 ， 则 全 部 放弃 已 抽 到 的 单元 ， 再 重 抽 ， 直 到 
抽 中 的 % 个 单元 都 不 同 为 止 ， 此 时 可 证 明 
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mh 一 2 (5.44) 
6 
sa #1 
其 中 Ee 六 入 人 | ， 
而 Ls=1, Tn BM hi (m=1, "ee, 2). 
这 里 的 .加 是 对 总 休 中 所 有 可 能 的 互 不 相 局 的 mm 个 单元 组 成 的 梯 本 求 





和 , La 了 是 对 除去 6 9 两 个 单元 的 子 总 体 中 相应 的 Lo 值 ， 
特别 地 , 当 mn 一 2 时 ， 
w= SE [2(1— ZZ7)] 


2 (TS) 
4H B11 FF1) . 
(1—220) C1— 220 [I+ 高二 抱 - | 


这 与 Brewer 方法 和 Durbin 方法 是 一 致 的 . 

Rao-Samford 方法 的 优点 是 可 以 通过 计算 机 得 到 精确 的 mo 章 值 . 
但 由 于 计算 量 大 , 一 般 也 只 适用 于 ”不 很 大 的 情形 为 此 有 人 给 出 了 这 
种 方法 的 求 ww 的 近似 公式 , 可 以 较 大 程度 地 减少 计算 量 . 

二 、 水 野 (Midzuno) 方 法 ( 见 百 oryitz 与 人 Thompson (1952) 的 
报告 》 

水 野 方 法 是 一 种 逐个 抽取 的 方法 , 应 用 起 来 较为 方便 。 它 的 步 又 是 
以 概率 





























ND) (46) 


抽取 第 一 个 样本 单元 , 在 剩 下 的 六 一 革 个 单元 中 不 放 回 地 等 概率 抽取 ?一 
工 个 单元 . 容易 验证 所 有 2; 之 和 等 于 工 。 但 为 了 保证 对 亡 有 前 宇都 有 
如 之 0, 则 需要 每 个 单元 的 大 小 


Cn—1)M, 
MR (5B.47) 


为 做 到 这 一 点 , 必须 避免 对 相差 过 关 ， 这 可 以 通过 分 层 来 达到 , 即将 大 


个 相仿 前 单元 分 在 同一 层 ， 在 (5, 竹 ) 式 成 立 的 条 件 下 ,有 
m= NZ 
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nf 和 3 站 n—2 
wT| 刘 一 ZIT)+ 有 | 《5.48) 
三 、Brewer 方法 (1963) 


这 也 是 一 种 逐个 不 放 同 手 取 法 ， 是 m 一 9 时 的 Brewer 方法 的 推广 
此 方法 是 以 与 -名 疆 二 多 ) 成 比例 的 构 率 抽取 第 一 个 单元 。 在 第 了 次 轴 


取 时 , 以 与 
好 ;人 一 人 
二 人 49) 


成 比例 的 柜 率 从 尚未 入 样 的 单元 中 抽取 一 个 单元 这 也 是 一 种 严格 的 
TBPS 抽样 , 但 ww 的 公式 相当 复杂 , 不 过 有 递 推 公式 可 以 使 用 . 


85.8 其 他 不 放 回 抽样 方法 及 其 相应 的 估计 量 


从 上 节 可 以 看 到 , 当 n>>2 时 , 严格 的 xPS 抽样 方法 不 论 是 方法 本 身 
还 是 方差 估计 ( 表 汤 在 mw 的 计算 上 ) 都 是 很 复杂 的 . 在 实用 中 有 时 采用 
一 些 非 严 格 的 灿 样 方法 ， 这 里 的 “ 非 严 格 ? 是 指 以 下 任何 一 种 情况 : mx 不 
严格 等 于 ”2Gs 不 是 严格 不 放 回 的 ; 样本 量 不 回 定 从 而 是 随机 的 。 对 于 
非 严格 的 xP8 托 样 , 有 时 需要 采用 特殊 的 佑 计量。 本 节 诗 论 拷 种 需要 用 
特殊 入 计量 的 非 严格 xPS 抽样 方法 。 


5.5.1 Yates-Grundy 逐个 抽取 法 及 Das-Raj-Murthy 估计 
量 


Yates-Grundy 逐个 抽取 法 (1953) 是 逐个 不 放 回 地 抽取 单元 ， 每 次 
抽取 锭 按 当时 未 入 祥 的 单元 的 成 比例 的 概率 抽取 即 第 一 个 祥 本 
单元 按 G 的 概率 抽取 , 设 第 “个 单元 入 样 ; 第 二 个 样本 单元 按 Zs/ (1 一 
如 ) 的 概率 在 其 余 万 一 工人 个 单元 中 抽取 , 设 第 了 个 单元 入 样 ， 第 三 个 样本 
单元 刚 按 Zs/ 吕 一 色 一 21) 的 概率 在 剩 下 的 可 一 2 个 单元 中 抽取 ， 以 此 类 
推 , 直至 抽 够 nn 个 单元 为 止 。 按 这 种 方法 ,mw 显然 不 是 严格 地 与 丈 成 比 
例 . 但 由 于 在 不 放 回 不 等 概率 抽样 中 , 这 种 抽样 是 最 自然 的 , 也 是 最 简单 
的 方法 , 故 在 实际 中 得 到 相当 广泛 的 使 用 . 

对 于 上 述 抽样 , 由 于 mw 不 易 计 算 ， 故 不 能 用 也 orvitz-Thompson 入 
计 . 对 些 , Doa(1951) 最 早 提出 以 下 估计 方法 ， 设 gz, ys，…, gm 是 按 执 
中 照 序 排列 的 榜 本 单元 (的 指标 信 》, 相应 的 2 值 为 22, 2，…, 8。, 令 
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Bo 辣 一 
| ee {5.50) 
, 吉 1 一 总 wjon 





.事实 上 ,每 个 怠 都 是 总 体 总 和 了 的 一 个 无 偏 估计 ， 我 们 取 它们 的 平 
均 数 
~ 二 高 (5.51) 
则 它 也 是 了 的 无 偏 升 计 ， 但 因为 如 彼 此 是 相关 的 , 故 随 的 方差 计算 很 
困难 .为 此 , Raj(1956) 修 正 了 Daa 的 佑 计量 , 令 





页 一 -中 
| 各 (1—2), (5.52) 


| 而 一 县 we 人 一 号 cd). 
每 个 二 仍 是 工 的 天 偏 估计 ,但 彼此 不 相关 , 因此 , Raj 估计 量 
?= 去 局 二 (5.58) 
不 仅 是 无 偏 的 , 且 能 求 得 它 的 方差 表达 式 . 
VP)- 吉 F 祝 识 2.21+ 写 Gotr-D] 芝 一 到) ， 
(5.54) 
式 中 QuGr 一 刁 表 示意 体 中 第 二 了 个 单元 在 前 一 工 次 抽取 时 有 一 个 或 都 
没有 被 抽 到 的 概率 ，《5.54) 式 尽管 形式 复杂 , 但 鉴于 所 的 不 相关 性 , 它 有 
以 下 往 单 的 无 偏 估 计量 : 
"P= 6 = 名 (ge— 8)’, (65.55) 
也 即 作 为 刀 的 样本 平均 数 估 的 方差 ， 可 用 名 的 样本 方差 的 卫 /% 进 行情 
计 . 
了 Raj 估计 量 与 Das 全 计量 一 样 ， 都 与 单元 的 入 样 顺 上 央 有 关 ， 这 当 


号 5.5 其 他 对 放 回 抽样 方法 及 其 相应 的 估计 齐 171 
然 很 不 方便 ，Murthy(1957) 证 明了 上 述 佑 计量 可 以 通过 考虑 已 知 样本 
中 的 单元 的 所 有 可 能 的 置换 而 得 到 改进 ， 他 所 出 以 下 与 入 样 次 序 无 关 的 
估计 重 ， 
SS £5.56) 

”BS - 
式 中 PS4| 的 表示 在 首次 抽取 时 抽 中 第 5 个 单元 的 条 件 下 抽 到 最 终 样本 
人 & 的 条 件 概率 ， 而 P.(5) 则 是 抽 中 样本 恕 的 无 条 位 概率 ， 下 面 证 明 
Murthy 估计 量 多 x 是 无 偏 的 为 此 先 证 明 对 任意 的 如 有 

BPSNO-1. 全 .57) 


式 中 求 和 是 对 所 有 第 一 次 抽样 抽 到 单元 的 祥 本 求 的 ， 对 n 一 2, 设 单元 
了 为 另 一 样本 单元 , 则 





Pr 





12% 
故 
加 
加 Ps 访 于 所 2 一 工 
对 "和 设 音 区 分 关 为 第 一 三次 被 中 的 于 务 ， 则 





做 riD 一 衣 高, 如 二 TE Fz" 加 5 和 
同样 可 证 明 ,对 一 般 的 %*，(5.57) 式 成立 ， 于 是 
DPw)- PS)Pu- DE ES)y 
- 澡 呈 P91 一 沪 了-Y. (5.58) 
当 m 一 2 时 , 记 信 一 (5, 用, 艺 去 了 是 两 个 样本 单元 , 则 
Ps -~ 工区 ，P(slD- 工 区 
PI) ~ my ZuP(S 6) + 21P;(81) 


_ 521(3 Zi 51) 
[ET (5.59) 








从 而 
P= 元 fa- hE AEA #2], "(5.60) 
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VP = BPD 一 [ 盏 (多 xz)]2 
-PS PLY 
pr A 
-这 作 -P 
Ti DA FZ :22 (及 到 ， (5.61) 





一 训 之 
了 1 了 


与 多 项 抽样 的 eee Hari 人 最 大人 区 人 9 式 ) 比 较 ， 
了 于 


故 玉 (全 中 小 于 天 (人 aa) 。 
可 以 直接 验证 , 在 %=2 的 情形 , 六 (多 zx) 的 一 个 无 偏 估 计 为 
v (Py)= 入 一 2 (BE ). (6.69) 
只 要 所 有 的 Zi< 青 , 则 o( 全 人 恒 为 正 - 


如 果 用 惯 帮 的 记号 重新 将 两 个 样本 单元 的 编号 记 为 荆 与 39， 册 
《5. 60) 与 (5.69) 式 可 写成 











Py i [Gs) 要 二 Ga 血 | ， (5.63) 
(sa) (1— pe Wa 
vwCPu) = 人 (各 -如 )》， (5.69 


对 于 >2 的 一 般 情形 , 全 x 的 方差 具有 以 下 形式 ， 
二 吉之 »_PCS IIPS |j) PF,_ YY 
Pw- 识 训 [1 一 EriB) ]22( 区 ) ， 
(5.65) 
式 中 及 * 是 对 所 有 包含 单元 了 的 样本 求 和 ，Pi(S 1 四 、 PS13) 分 别 是 
第 一 次 抽 中 的 单元 或 单元 j, 最 终 抽 中 样本 的 条 件 概率 ,天 ( 参 ) 的 一 
个 无 偏 信 计 是 
vw{P a) = 





TE [PCS) PCS |s, H)— Pi(S|s) Pr(8 |D)] 


xy ( 委 一 健 上 《5.66) 
其 中 Pr(812 有 站 是 在 前 两 次 抽 中 单元 与 了 不 计 顺 序 ) 的 条 件 下 抽 到 最 
北 样 本 的 条 件 概率 .wv( 允 x) 的 计算 必须 借助 计算 机 编制 专门 程序 才能 
进行 , 而 县 计算 量 随 着 mn 的 增 大 也 急 剧 增 大 。 
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5.3 Rao~Hartley-Cochran 方法 及 其 人 和 估计 其 


这 是 由 Rao-HHartley-Qochran 于 1962 年 提出 的 一 种 简单 而 适 
用 的 方法 . 将 总 体 中 的 单元 随机 地 分 成 % 组 ， 每 组 的 单元 数 记 为 NW 
轧 s，…, WW 在 每 组 中 按 与 2Z1 威 比例 的 概率 铀 取 一 个 单元 入 样 , 即 车 名 
是 第 g 组 Ws 个 单元 如 值 的 总 和 , 则 按 Zi/25 概率 抽取 . 将 被 抽 到 的 单 
元 的 观测 秆 记 为 op， 相应 的 多 值 记 为 *o, 则 Rao-Hartliey~Cochran 佑 
计量 定义 为 : 





多 ae- 总 开 站 (5.67) 


由 于 25 并 不 相等 , 因此 就 整体 两 富 ,移入 抽样 并 不 是 天 格 rPS 的 ， 
但 是 在 每 一 组 中 , 抽样 是 严格 PPS 或 Hg 的 (由 于 ?zy 一 也 故 无 所 谓 放 回 
或 不 放 回 ) 从 而 对 组 痊 和 了 5s 的 估计 


,= 3 (5.68) 


是 无 偏 的 , 因而 他 so 是 总 体 总 和 了 的 无 篇 佑 计 . 

至 于 多 aro 的 方差 它 有 两 个 来 源 ， 一 是 由 于 分 组 的 随机 性 , 二 是 由 
于 组 肉 芍 抽样 ， 概 据 引 理 3.1 的 一 般 结果 , 有 

VPrgo)— BlV a Prgo)] + VHP ase)]. 《5.69) 

其 中 加 ,了 V1 分 别 表示 随机 分 组 前 期 望 与 方差 , 了、 Vs 分 别 玫 未 在 固定 分 
组 条 件 下 组 内 抽样 的 期 望 与 方差 前面 已 论述 了 全 与 外 szo 的 无 偏 性 ， 
此 (5.69) 中 的 第 二 项 等 于 0, 而 根据 5.9) 式 , 对 每 一 人参 ， 有 (注意 此 时 
= 1) 
































VPD-V(PD)- 襄 2z.81 (到 到) ， 
(No 一 了 也， 
本 [Fe( 仑 )] -六 22, (¥: -3 
NWN) SY? ys 
AR 本 尼 DF, ”). 








丽 Fano DP,, 
因此 VOPaso)= BlVa frao)]=— SEPP)] 
Ww*) 
"NH (0 小 + {5.70) 


174 第 5 章 不 等 概 室 抽样 
与 了 总 体 中 按 放 加 PPS 抽样 的 Hansen-Hurwitz 入 计 量 的 方 其 
六 ( 了 gg) 比较 , (5.70) 式 可 写成 
V(P pro) -人 VCOP ne), (B71) 
上 式 表 明 广 ( 允 sxo) 可 丧 成 六 ( 信 gz) 乘 上 一 个 因子 的 形式 ， 车 立 - 
召 是 一 整数 , 则 取 入 ,一 号 由 能 全 机 (他 nao) 达 到 极 人 
Voal Pano) = (1— DV Pr) VPs). (5.72) 
洪 育 一 rR 十 h( 有 为 整数 ,之 nn), 则 使 (5， 70) 肌 (57 法 到 极 小 的 分 
组 是 取 访 组 的 大 小 为 吾 二 ,其余 一 五 组 的 大 小 为 吾 , 此 时 
一 I 


Von(Pna0)—[ -Pn). (5.72) 


至 于 方差 的 估计 ， 可 以 证 明 (5.70) 的 一 个 无 偏 信 计 是 











Ni—N 
信人 aro) 一 站 (2 他 aac 。 (5.73》 
MN? 一 加 2 
而 (5.73) 式 的 一 个 无 偏 佑 计 是 


— Nh nH Nn Gg Yo 2 
wn) 证 人 Pa). 





(5.74) 


5.5.3 Poisson 抽样 


了 Hajek(1964) 设计 了 一 种 严格 *YPS、 严 格 不 放 问 ， 但 ”不 事先 园 

定 的 抽 桩 方法 ， 称 为 Poisson 抽样 ， 对 每 个 总 体 单元 赋予 一 个 入 祥 概 率 

mb 使 ee/ 2 一 2 其 中 > 是 一 常数 . 以 m 为 成 功 概率 ， 作 一 次 Bernoulli 

试验 , 车 试验 成 功 , 则 相应 药 单 元 入 样 。 共 作 克 次 这 样 的 试验 , 实际 入 样 
的 单元 数 即 样本 量 呈 是 一 个 随机 变量 ， 显 然 , 有 

至 (nm - 宫 Wi». (5.75) 

总 体 总 和 了 竟 估 计 有 两 种 方法 : 一 种 仍 是 采用 Horvitz-Thompson 

合计 , 即 
P=- 访 总 (5.76) 


些 时 出 于 
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Wi Mi (5.77》 
故 乡 re 的 方差 有 如 下 障 单 的 形式 : 
VP 高 (m2 (5.78) 
它 的 一 个 无 偏 估计 是 ; 
ago 总 dm) 站 . (5.79) 
由 于 这 里 的 mw 是 随机 的 , 因此 可 以 考虑 如 下 的 比 合计 : 
如 
0 | (5.80) 
0, 车 m=0. 
全 Ys 是 近似 无 偏 前 , 它 的 一 个 近似 均 方 误差 或 方差 由 下 式 结 出。 
VP) mw) EY +pYs, (5.81) 


其 中 po。 是 n=~=0， 也 即 在 一 软 Poisson 抽样 抽 到 一 个 空 样 本 的 狗 率 ， 
《5.81) 式 的 一 个 估计 是 ， 
5o 一 以 Ga( 业 -了 +? (5.89) 
为 估计 po Ogus 与 Olark(IT971) 考虑 了 以 下 的 修正 Poisson 抽样 
(modified Poisson snzapling)， 旭 果 在 一 转 Poisson 抽样 中 抽 到 一 个 
空 样本 , 则 重新 进行 一 轮 Poisson 抽样 , 也 即 再 做 入 次 Berneulli 试验 ， 
直到 得 到 一 个 非 空 样本 为 止 。 在 一 轮 Poisson 抽样 中 ， 抽 到 第 5 个 单元 
的 税率 为 wu.(1 一 p。), 因此 p。 满足 





p= il-me po)]. (5.88) 
用 选 代 法 即 可 求 得 po 初始 导 可 取 为 0. 对 于 修正 的 Polseon 朱 样 , 有 
wu wm po (FD). {5.84) 
于 是 按 (5.76) 的 Horvitz-'Thompson 估计 , 记 为 他 rs 的 方差 公式 是 
太 ( 了 0 宫 GL-m) 王 po( 了 7- 襄 Y1)， (5.80) 
它 的 一 个 无 偏 信 计 是 
Vm) 一 识 (I 如 一 了 2 (sa- 福 闪 ， (5.86》 


落 按 形 如 (5.80) 的 比 佑 计 , 记 为 了 %,.。, 近似 方差 为 
VP SS mL Cpo)r] (过 - 王 ) ， (5.87) 
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它 可 用 下 式 估计 : 

Po (6.83) 
通常 修正 的 Foisson 独 样 和 估计 的 方差 小 于 一 般 的 Poisson 扯 样 估计 的 方 
差 . 


5.5.4 配 轩 抽 祥 
这 是 由 Brewer、 Early 与 Joyce(1972) 提出 的 另 一 种 严格 PS 、 严 
格 不 放 回 , 但 %% 不 事先 固定 的 抽样 方法 ， 与 Foisson 抽样 类 似 ， 瑟 置 抽 
样 (eolloeated gsampling) 尘 给 每 个 单元 赋予 一 个 入 样 概率 wm， 使 zt/Z+ 
一 vz， 其 中 v 为 一 常数 。 等 概率 地 给 总 体 单元 配置 一 组 序号 DLe,…， 
Lx(I 一 4, 23,，…, 可), 在 [0, 如 中 抽取 一 个 随机 数 , 令 
mLtr i/N. (5.89) 
若 m<miy 风 第 个 单元 入 样 ， 否则 ,该 单 元 不 入 样 ， 对 所 有 单元 都 按 上 
述 准 则 确定 其 入 样 与 否 ， 构 成 一 轮 配置 抽样 , 因此 , 实际 样本 量 % 是 随机 
的 . 
对 总 体 总 和 交 采用 比 估计 型 的 估计 景 : 
2 SE A ， 
全 os= 全 m0; 《5.90》 
0, 车 % 一 0， 
傅 os 是 近似 无 偏 的 , 它 的 近似 蜀 方 误差 或 近似 方差 为 ; 
Fr(goo) 站 (一 卫 太 + 咏 训 co- 人 (三 ) 
十 三 2， (5.91) 
其 中 Pu 是 在 一 轮 铀 样 中 抽 到 一 个 空 祥 本 的 概率 . VC 侈 og) 的 一 个 估计 
为 : 


op)- 访 Q-m)( 各 -了 +9 识 训 oi — miry Pos) 


1 a Ea 了 
x( 洛 一 允 六 Pear (5.92) 
为 了 能 计算 上 式 , 需要 给 出 mw 和 Pw 的 近似 表达 式 ， 为 简单 起 见 。 
不 炉 约 定 ww 
optf 一 WRT {[No] (No —1)- RNm) + mar(R,— EK,, 0)}, 
(5. 983) 
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Ps— 说 HG- Nm, 车 min (i 一 No)>0; (5.94) 


0, 否则 . 
(5.93) 式 中 的 及 :一 术 wm 一 [om] ,而 [Ww] 表示 不 超过 Wo 的 最 大 整数 . 


5.5.5 不 阅 铀 样 或 估计 方法 性 质 的 比较 


前 面 介 绍 了 几 种 不 放 回 前 xP9 抽样 及 其 相应 的 入 计量 ， 宕 实际 工 
作 中 ， 究 竞选 择 哪 一 禹 方法， 要 根据 各 种 方法 的 特点 及 关于 它 的 综合 评 
价 . 在 这 一 小 节 中 , 我 们 对 前 面 讨 论 过 的 方法 进行 大 致 的 比较 、 夹 5.4 
是 对 n= 3 的 诸 方 法 所 作 的 比较 , 以 Brewer 方法 六 标准 ; 表 5.5 是 对 n> 
的 诸 方 法 所 作 的 比较 , 以 Rao-9ampford 方法 为 标准 。 其 中 效率 -- 栏 以 
总 体 总 量 的 瑟 orvitz-Thompson 估计 好 rz 及 其 Yates-Grundy-Son 方 
其 估计 vres 作为 标准 ， 在 作 此 比较 时 , 我 们 基于 抽样 调查 中 前 一 个 常用 
的 理论 模型 线性 随机 模型 《linear gtochastic model). 模型 的 寡 述 
如 下 : 

将 记 考 察 的 总 体 看 成 是 从 一 个 无 限 超 总 体 按 一 定 随 机 模式 产生 的 一 
个 (天 小 为 信 ) 的 样本 , 对 每 个 假定 的 总 体 ( 超 总 体 的 一 个 样本 )，w; 都 严 
格 地 与 单元 的 大 小 成 比例 , 且 为 常数 ， 令 21 为 标准 化 了 的 大 小 , 模型 候 
定 为 : 

1) 荆 r 一 加 1 十 上 

2) §(8) = 0, 





of, J=I 


3) GCer, “= 和 7 


表 $.4 若干 2 一 2 的 PS 抽样 方 淡 ( 传 计量) 性质 的 比较 


计量 ) | Yates-Grondy 法 区 | Tates-Grundy 注 凶 ;ys [ac 法 它 ppelBrewer 污 Pye 











是 是 1 是 是 

沪 关 售 并 是 看 无 人 是 是 是 是 

方差 估 计 的 稳定 性 好 很 好 极 好 - 标准 

方差 估计 简单 程度 | 非常 简单 非常 简单 很 简单 简单 

效 和 | 接近 标准 高 于 标 痊 高 于 标准 标准 
Ye 可 

去 <y<d 低 于 种 准 近似 为 标准 低 于 标准 标准 

z=1 远 低 于 标准 低 寺 标准 | 远 作 于 标准 声 淮 
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4) = 09, yl. 
























其 中 B.o?.7 皆 为 带 数 ,人 为 超 总 体 中 的 期 望 算 子 ， 即 对 其 中 所 有 可 能 的 
总 体 求 期 望 . 
表 5.5 若干 w>2 的 xPS 抽 祥 方法 ( 佑 计量) 性 岳 的 比较 
| Yatos~ BHO 法 | .修正 ”| 配置 抽样 
方法 {估计 量 ) Grudy Brondy Poiason Bampford 
EE 尖 法 全 。| 法 全 pr 
是否 固定 是 否 是 
佑 讨 是否 无 仿 是 近 电 是 
方 益 估计 是 否 无 仿 是 近似 是 
方差 估计 的 稳定 性 好 不 知道 标准 
抽 梯 的 简单 程度 。 “| 非常 简单 需 订 算 机 | ”简单 
方差 傅 计 篇 单程 宅 | 非常 简单 简单 条 单 
效率 : 
Yl2 近似 标准 | 近似 标准 | ”标准 
2<y<l 低 于 标准 近似 标准 | ”标准 
7 一 1 | 远 低 于 机 交 1 近似 标准 | ”标准 














第 6 章 


6.1.1 定 义 

定义 6.1 设 总 体 由 廊 个 大 单元 ， 即 初级 单元 (primary unit) 组 
惑 ， 每 个 初级 童 元 又 由 若 于 个 较 小 的 次 级 单元 或 二 级 单元 (seeondary 
ant) 组 成 。 从 总 体 中 按 某 种 方式 抽取 呈 个 初级 单元 , 观测 其 中 所 包含 的 
所 有 次 级 单元 。 这 种 抽样 称 鸭 整 群 抽样 (clnster sampling). 

确切 地 说 ,上 述 抽样 应 称 为 单 阶 整 群 袖 样 (single-stage cluster sarm-- 
Pling). 如 果 总 体 中 的 单元 可 以 分 成 多 级 , 则 可 以 对 前 所 级 单元 采用 多 阶 
抽样 ( 详 见 下 章 )， 面 在 最 后 一 阶 中 对 该 级 抽样 单元 中 所 包含 的 全 部 最 侨 
级 单元 进行 现 测 , 即 是 多 上 阶 上 整 群 抽样 (multi-stage cluster sampling)。 

在 整 群 抽样 中 ， 那 些 一 旦 被 抽 中 即 需 观测 其 中 所 有 最 低级 单元 的 单 
元 .例如 单 院 整 群 抽样 中 前 初级 单元 ， 称 为 束 群 拍 样 单元 《eluster sam- 
pling unit) 或 简称 为 群 (cluster)， 由 于 实际 (最 后 一 阶 ) 抽 样 是 整 群 进 
行 的 , 邦 称 整 群 的 祥 。 本 章 只 讨论 单 阶 整 群 抽样 ， 


6.1.2 适用 场合 及 实施 理由 


整 群 抽样 的 应 用 颇 为 广泛 , 其 原因 主要 有 以 下 几 方 面 

一 、 缺 少 次 级 单元 的 抽样 框 

在 有 些 调查 中 , 尽管 调查 对 象 是 较 小 的 单元 ， 即 上 述 的 次 级 单元 (或 
最 低级 单元 )， 但 在 总 体 中 没有 或 不 易 得 到 包括 所 有 这 些 单元 的 拖 样 框 ， 
也 不 值得 为 此 搞 一 个 ， 例 如 对 一 个 城市 就 很 惟有 一 盆 现 成 的 包含 二 所 有 
居民 或 房屋 的 名 其 或 清单 。 但 有 可 能 搞 到 或 较 易 编制 关于 较 大 单元 ( 例 
和 居委会 或 户 ) 的 抽样 框 , 因而 可 以 按 较 大 的 单元 进行 抽样 

二 、 实 施 便 利 , 节省 费用 

即使 关于 次 级 单元 的 抽样 框 可 以 获得 , 但 从 经 济 上 考虑 , 直接 按 次 级 
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单元 抽样 获得 的 样本 必然 会 相当 分 散 . 从 而 使 调查 不 方便 ， 大 大 增加 了 
诸 乞 旅费 之 类 的 费用 , 耗 时 也 更 多 . 相反 的 ， 按 整 群 抽样 , 由 于 样本 相对 
集中 , 调查 妍 方便 ， 费 用 也 节省 . 例如 在 某 城市 开展 家 用 电器 调查 , 若 调 
查 的 最 低 单 元 是 户 . 在 全 市 电 抽取 300 户 进行 调查 沁 抽 取 15 个 层 民 小 
组 ( 设 平均 每 个 居民 小 组 包含 向 户 ) 进 行 调查 所 费 前 时 间 与 经 费 要 多 得 
多 ， 又 俩 如 在 人 体 尺寸 调查 中 , 每 个 被 测 的 人 要 浏 量 50 多 项 指标 ， 且 必 
须 在 专业 人 员 指 导 下 用 整套 专用 测量 仪器 来 测量 . 在 此 情形 ,以 数 十 人 
为 一 群体 进行 抽 拌 (相当 于 一 天 工作 量 ) 量 然 要 比 以 个 人 为 抽样 单元 方便 
得 多 ， 星 然 对 同样 数 月 的 小 章 元 而 言 , 整 群 抽样 的 精度 可 能 有 记 损 失 , 但 
因 每 调查 一 个 小 单元 的 平均 费用 (或 耗 时 ) 低 ， 故 可 以 通过 适当 增 大 样本 
量 的 方法 来 得 到 弥补 .例如 前 面 提 到 的 家 电 调 查 , 抽 30 个 居民 小 组 共 600 
户 进行 调查 ， 其 结果 可 能 比 用 简单 随机 抽样 在 全 市 调查 300 户 的 收 法 酸 
省 费用 县 精度 也 高 . 

三 、 对 某 些 特殊 结构 的 总 体 , 有 较 高 的 精度 

例如 为 信 计 一 个 地 区 的 男女 性 刚 的 比 例 , 由 于 每 个 家 庭 内 成 员 的 性 
别 结构 有 一 定 的 模式 ， 此 时 对 户 采 用 整 群 抽 立 的 精度 比 直接 抽 人 的 精度 
高 得 多 (参见 例 6.2 与 6.4)、 


6.1.3 群 划 分 的 原则 


关于 和 群 的 划分 ， 有 两 个 问题 : 一 是 如 何 定 义 群 , 即 当 群 并 非 是 一 个 自 
然 形成 的 单位 时 ， 碳 定 每 个 群 的 组 成 ， 二 是 如 何 确定 群 的 规模 即 群 的 大 
小 . 

对 于 前 一 个 问题 , 群 的 划分 应 尽 可 能 使 群 与 群 之 间 的 差异 小 , 而 群 内 
党 异 则 禽 大 愈 好 这 样 , 每 个 群 都 具有 足够 好 的 代表 手 . 如果 所 有 的 群 
都 相似 ,那么 抽 少 数 群 就 可 获得 相当 好 的 精度 ;反之 , 若 群 内 的 单元 比较 相 
似 , 而 群 与 群 之 癌 的 差别 较 大 , 凯 整 群 抽 样 的 效率 就 低 ， 所 以 分 群 的 原则 
与 分 其 的 原则 是 恰好 相反 的 ， 图 6.1 直观 地 表明 了 理想 的 分 群 与 分 层 的 
思想 , 其 中 同一 字母 表示 有 相近 的 现 测 值 的 单元 . 

至 于 群 的 规模 的 选择 ， 一 是 取决 于 精度 与 费用 之 闻 的 平衡 ， 二 是 从 
抽样 实施 的 组 织 管理 等 因素 来 考虑 . 对 于 前 者 ， 群 的 规模 选 得 大 ， 册 性 
由 省 而 糖度 差 ， 群 的 规模 选 得 小 ， 则 精度 高 而 费用 大 .， 这 方面 除了 依 
靠 实 幅 经 验 外 ， 还 可 对 假定 齐 方 差 画 数 与 费用 函数 作 理 论 上 的 最 优选 
洗 . 
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6.1 理想 的 群 ( 父 线 ) 与 层 ( 实 践 y 的 划分 


86.2 群 大 小 相等 的 情形 


本 人 节 首 先 讨 论 群 的 规 横 ， 即 群 的 大 小 或 它 记 包 含 的 次 级 单元 个 数 都 
相等 的 情形 ， 假 定 对 群 的 抽样 是 简单 随 宙 的 . 


6.2.1 记 号 
记 Fw 为 第 6 群 (初级 单元 ) 中 第 j 个 次 级 单元 的 观测 信人 =1，2,: 
2 及 ,其 中 用 是 群 的 大 小 》. 
gs 是 样本 中 第 初级 单元 中 第 5 次 级 单元 的 观测 值 (2 一 1 2, …, ns 
j=1, 2,.., M). 


























x a 
Y= Ty, Y= 2 Yes 
JI 本 jel 
i— P/M, Y= YM, 
a 
P—-P Y/N, 3 一 全 oj 
下 一 二 Fol 
a ne 
-YW NM-Y/M, 加/ 
8 yg) 
Err pr te 
-Ty = 
3 N— 宇 本 路 一 由 j=1 2 
ee 3 一 工 忆 冲 rojoa 
”NW 


nm 
一 是. 


182 第 6 章 整 群 抽 祥 


6.2.2 总 体 与 样本 平方 和 的 分 解 
正 刀 上 节 中 所 述 的 ， 整 群 抽样 的 精度 在 很 大 程度 上 取决 于 群 内 次 级 
单元 差异 的 天 小 , 或 者 说 取决 于 群 内 次 级 单元 相似 程度 的 大 小 ， 为 此 , 运 
用 方差 分 折 的 方法 , 将 总 体 与 样本 中 所 有 单元 的 观测 信 对 总 体 ( 按 次 级 单 
元 ) 均 信 殉 或 样本 均值 5 的 (高 差 ) 平 方 和 进行 分 解 是 有 用 的 
对 于 总 体 , 了 4 对 六 离 差 的 总 平方 和 可 以 分 解 为 : 
语言 C4 了) 一 襄 澡 [(Y 6 了 D+ (F.-Y)] 








Se 
-EY PO HM FP), (6.1) 


1 1 


其 中 第 一 项 是 群 内 平方 和 ; 





CYP) NM -1)S, (6.2) 

Ei 1 
NCM 一 1) 蚌 它 的 自 租 度 , 而 8 即 是 群 内 方差 ， 局 样 , (6.1) 中 的 第 二 项 
NM SF, -Fy (N—1)Ss (6.3) 


是 群 间 前 平方 和 , 它 的 自由 度 为 入 一 I， 8 是 群 间 的 方差 ， 
根据 总 体 方差 的 定义 及 上 述 平 方 和 的 分 解 , 我 们 有 : 
局 2 一 [CN— I SNCM—1)S3]. (68.4) 





1 
NM—1 


上 述 结果 可 写成 熟知 的 方差 分 析 表 6.1、 
囊 6 了 sy 的 方差 分 析 











完全 类 似 的 , 对 样本 观测 值 也 可 作 辣 祥 的 分 解 , 相应 的 方差 分 析 表 如 
表 6.2 所 示 . 
其 中 禅 本 方差 s 与 祥 本 群 则 的 方差 55 与 群 内 方差 88 的 关系 有 : 


stn) (6.5) 
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甫 8.2 yis 的 方 头 分 析 











注意 : 此 时 号 并 不 是 8 的 无 偏 估 计 ， 这 是 因为 按 次 级 单元 而 害 , 样 
本 并 不 是 简单 随机 的 ， 但 由 于 对 崔 的 抽取 是 简单 随 补 的 ， 因 此 , 品 与 吕 
分 别 是 克 与 5% 的 无 偏 佑 计 ， 为 了 证 明 这 一 点 ,只 要 注意 sy/ 是 包 的 
样本 方差 ， 它 是 相应 前 总 体 方差 台 / 形 揭 无 偏 估计 ， 而 路 则 可 以 看 作 是 


上 会 襄 (ws 一 3)3/( 下 一 了 的 梯 本 均值 ， 于 是 它 是 2, 的 总 体 均值 祁 也 即 


5 的 无 偏 估计- 
根据 上 述 结论 及 (6.4) 式 , S? 的 一 个 无 入 估计 可 以 构造 如 下 
G2 (NI)st+ NEM—1)s 
dR 《6 .6》 
当 鼠 很 大 时 ， 
Gs + CM 1)s, 
Ri 天 。 (6.7) 


另 一 方面 ; 车 "也 足够 大 , 则 中 也 近似 地 可 表 为 (6.7) 式 , 因此 ,只 有 在 此 
奢 ,s* 可 看 作 是 S? 的 近似 无 偏 估计 


6.3.3 群 内 相关 po 
定义 6.2 同一 群 内 不 同 次 级 单元 的 观测 值 对 总 体 均值 高 差 芒 积 的 
平均 与 总 体 所 有 次 级 单元 观测 值 对 总 忻 均 值 离 差 平方 的 平均 之 比 ee 称 
为 群 内 相关 (intraclass correlation coefficien#), 则 下 起; 
BOYy— PYm— Fy 
和 (8.8) 
3 总 uF) 7) 
(M— I)NM—1)S’ 





(6.9) 





三 
其 中 (6.8) 式 的 分 子 是 (2 ) 一 Na( 开 -113 个 次 级 单元 对 上、 了 a 
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(5 三 丰 对 术 的 离 差 乘积 和 的 平均 : 


训 总 (Ys—P) Ym) 
三 - 雪 ol fh 如 他 
E(Yy—P)(Fw—Y)= 万 三 ( 末 一 IJ75 


而 (6.8) 式 的 分 母 是 开 砚 个 了 sw 对 密 的 离 莽 平方 和 的 平均 ， 
一 ， 富 翌 C7o-P) 
PE CPR 
因此 (6.8) 与 (6.9) 两 式 相 等 . 
ps 的 取 什 在 [一 -本 二 ;4 范围 内 ， 当 po 一 0 时 , 表明 群 完全 是 随机 
组 成 的 ，pe 值 愈 大 , 表明 群 内 的 单元 愈 相似 ，p。 信念 小 ， 则 群 内 单元 的 
差异 僵 大 ， 当 po<0 了 时, 表明 这 个 差异 比 随机 分 组 时 群 内 的 差异 更 大 . 
po 可 以 用 群 间 方差 88 与 群 内 方差 5% 来 表示 。 考虑 了 ,对 了 的 离 
差 平方 和 |， 
7) Duy, MF) 





_ NM-1 wa 
HNN 全 








了 四 一 
一 妇 它 (了 一 了 )2= MON —1)8, 
同时 它 又 可 表 成 
识 (7 了) =- 宫 [ 训 Co 一 下 
- 究 [ 宫 人 一 到 2 (YP)?))] 


NMI (NM 1) CM—1) 8p 
— NM—1)8?[1+ (CM —1)pe]. 





1 MOVINSS 
因而 1+(M -1)pe TNT 
故 
_ M(N— DS (NM-1)S: 人 -8 . 
Po CIN TMI)S" (6.10) 
另 一 方面 ， 


ye 
《WM 一 1)8: 一 沪 六 (Ys-)? 
一 福 2( 了 FP, 了)s+ 训 这 (YP 了 ,) 


1 NW 
一 讲习 (一 了 7 二 (下 一 1)85 
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一 看 (NWN)S: [1+ (CM—1)pe] + HOM—1)SS,, 


Be (MMe geC1—po) 





其 而 


NMS 1 1 
Po 一 工 一 (HHI SY (8.11) 


为 估计 pos 从 《6.10) 式 或 (6.11) 式 出 发 , 注意 到 8? 可 用 评估 计 ， 因 
而 有 


A 一 192 
Prt 人 


在 实际 问题 中 , 当 群 的 大 小 ML; 不 等 时 , 上 述 公式 也 能 适用 .此 时 按 
通常 的 平方 和 分 解 方法 计算 如 与 强 ， 用 平均 群 的 大 小 站 代替 型 即 可 ， 

例 6.1 在 一 次 对 居民 月 收入 的 试 调查 中 , 按 简单 随机 抽样 抽 得 % 一 
10 个 居民 小 组 ， 各 居民 小 组 的 平均 户 月 收入 纺 及 标准 差 8 如 下 6.3 所 
东 、 平 均 每 个 居民 小 组 包含 于 一 16 户 , 求 群 内 相关 po. 


甫 8.3 内 个 居民 小 组 的 户 平均 月 收入 及 标准 差 












| 入 Se i 奖 s: 
1. EE 78.2 6 796.1 102.4 
2 | P96.0 392.7 了 720.5 83.3 
3 921.3 JS84.6 8 812.4 145.5 
4 | 825.5 181.5 9 733.8 72.0 
5 1 689.4 ?0.9 30 了 78.7 39-1 





解 ”根据 表 6.3 中 的 数据 可 计算 : 
9 一 调 襄 一 782.76， 


10 

EE 区 EN 4210.30 x 16—67864.8, 

2_128 1 # a 

名 二 1340I1.3, 

_ 67364.8-—12401.2 
B764.8+ (IT) x 1340T 洒 


例 @.& 为 估计 某 街道 男性 居民 在 全 体 居民 中 的 比例 ， 按 罕 庭 户 进 
行 整 群 加 样 , 共 抽 得 500 个 家 庭 , 按 家 庭 人 口 数 及 性 别 结构 分 类 ， 和 分 类 及 
和 相应 的 频数 见 家 6.4. ， 





L。 





=0.217. 
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甫 8.4 500 个 家 庭 户 人 口 性 别 结构 分 类 请 况 











类 别 | 家庭 人 口 数 br 男性 人 数 因 女性 人 数 mr 一 了 频数 mw 
工 | 1 1 人 3 
2 2 0 2 1 
3 2 1 1 34 
4 2 2 o 2 
5 3 1 2 96 
6 3 E24 1 Bo 
7 4 1 3 51 
8 4 2 2 94 
9 4 3 1 47 
10 5 1 4 10 
11 5 2 3 19 
12 5 3 2 21 
18 5 4 1 211 
14 € 2 4 2 
15 8 3 3 了 
16 a 4 2 3 

根据 表 &.4, 在 500 个 祥 本 户 中 : 

总 人 口 数 守 mr 1807, 

平均 每 户 人 口 数 克 = me 3.614， 

男性 人 口 数 Ebr= 907, 

_ 907 _ ，- 

男性 比例 了 -TO7 一 0.5019397， 

支 性 人 口 数 1807 ~— 807= 900, 

去 性 比例 1—p= 0.498063, 

总 平方 和 (Bam)p(1 —p) = 451.7482, 


群 (家 庭 ) 内 平方 和 。 守卫 (一 2 896.4667， 
群 内 平方 和 的 自由 座 。 以 mmw 一 1) 一 1307， 


和 群 (家 庭 ) 间 平方 和 451.7432 一 396.4667- 55.2765， 
群 间 平方 和 自由 度 。 1807 一 1 一 1307= 499， 


.56.2765 _ 
Wig 0.1108, 
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_ 396.4667 _ 
0.3098, 

$= 5 .0.1108—0.3083 __0.218 

fT (RD 01108+2. 614X0.3088 me 


6.2.4 ”估计 景 及 其 方差 


定理 6.1 对 整 群 抽样 ， 若 群 的 抽取 是 简单 随机 的 , 且 群 的 大 小 皆 等 
于 好 , 则 








5 yn (6.18) 


是 总 体 均值 Y/N 
的 无 偏 信 计 ， 又 丈 的 方差 为 : 


PD) -tM Dp] (6.14) 


二 二 SET CM —1)pa], (6.15) 








其 中 f= n/N. 1 
证 明 ”由 于 群 是 披 简单 随机 方法 拍 取 的 , 因此 3 一 二 宫 一 328 是 


了 考 容 并 -FF 的 无 偏 估计 , 因而 多 是 也 的 无 偏 信 计 ， 又 


1 SFPy 
MV PD- V9- 
. 1 YP? 
“ VD iH NH 








Lf ,NM-IDS[1+ (CM—1)po} 
nM N—1 
~ -fg2 一 
FS 二 (一 Do. 是 
推论 “ 灰 ( 肪 的 一 个 无 候 估 计 为 ， 
oD 
VD 了 (6.16) 


多 一 王 


6.2.5 设计 效应 
根据 定理 6.1， 容 易 得 到 整 群 抽 样 的 设计 效应 。 如 果 在 总 体 中 按 次 
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级 单元 抽取 祥 水 量 为 mi 的 简单 随机 样本 , 则 
忆 工 一 
VD)— LA 
与 (6.15) 式 比较 , 即 可 得 到 整 群 抽样 的 设计 效应 


__VFD ,~ 一 
asf tM -lpo, (6.17) 


在 实际 问题 中 ， 若 群 大 小 4, 不 完全 相等 ， 则 可 用 平均 群 的 大 小 亚 
代替 有. 

由 于 一 般 的 po>0, 因此 从 (6. 妇 ) 知 ， 整 群 抽样 的 精度 在 大 多 数 情况 
下 ， 此 抽 辐 样 数 量 的 次 级 单元 的 简单 随机 抽 祥 的 精度 低 - 为 了 获得 与 入 
单 随 机 抽样 相同 的 精度 ， 则 整 群 抽样 的 样本 量 必须 是 简单 随机 拥 祥 样本 
量 的 TH( 开 一 1)pe 倍 ， 通 常 整 群 抽样 的 样本 量 即 是 根据 此 确定 的 . 

例 8.8 在 对 全 国 成 年 人 人 体 尺寸 测量 中 , 根据 一 次 试 测 样本 的 分 
斩 , 单位 内 同性 别人 的 群 内 相关 的 佑 计 为 8. 一 0.00775， 根 据 精度 要 求 ， 
按 简 单 岩 机 抽样 所 需 的 样本 量 为 n。 6147， 若 平均 群 的 大 小 为 肝 = 80, 
则 按 单位 的 整 群 抽样 

doff =1+(80—1) x0.00775=1.61225. 
从 而 n— ndeff= 6147 x1.61225— 9911. 
也 即 需 抽 9911 人 , 合 19 个 群 . 

例 6. 揪 续 例 6.3) 为 估计 男 狂 居 民 在 全 体 居民 中 的 比例 , 用 整 群 抽 
样 抽取 500 户 共 1807 人 .根据 例 6.2 中 的 计算 po 一 一 0.213， 因 而 在 此 
问题 中 , 按 户 整 帮 抽样 的 设计 效应 : 

doff £1+ (及 一 1)p。= 0.4432. 

在 这 个 特殊 问题 中 ， 整 群 抽 祥 的 效果 反而 比 简 单 随 机 抽样 高 。 这 是 
因为 在 一 个 家 庭 内 出 夫妻 为 核心 加 上 其 竹 妆 或 父母 ， 本 身 就 存在 一 定 的 
性 别 结 构 ， 因 此 家 庭 内 ( 群 内 ) 性 别 的 差异 必然 比 随机 分 组 产生 的 组 内 差 
异 大 ， 在 负 例 中 , 要 达到 整 群 抽样 实际 精 实 的 简单 随 袖 抽样 , 需 抽取 


1807 _ 1807 _ 
da 0 A077C 人 》. 



































§6.3 对 比例 估计 的 整 群 抽样 


本 节 考 忠 用 整 群 抽样 来 估计 具有 某 种 特征 的 (次 级 ) 单 元 在 总 体 中 所 
.丰韵 比 傅 卫 、 在 实际 问题 中 , 对 了 的 估计 常用 整 群 抽样 ， 因 为 它 不 仅 方 
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便 , 而 县 对 某 些 特殊 癌 题 (如 例 6. 久 ,精度 也 高 ，, 因 此 对 比例 估计 采用 整 
群 抽样 , 总 的 效率 是 高 的 ， 本 节 仍 考 虚 群 的 抽取 是 简单 随机 的 . 
6.3.1 和 群 大 小 相等 的 情形 


如 果 总 体 中 的 群 的 天 小 都 相等 (或 近似 相等 )， 则 可 直接 利用 第 二 章 
中 简单 随机 抽样 的 结果 .， 令 wm 为 第 个 群 “初级 单元 ) 中 具有 所 考虑 特 


征 的 次 级 单元 数 (相当 于 上 节 中 的 %)， 令 p: 一 复 是 样本 中 第 5 群 中 具 


有 所 考虑 特征 的 次 级 单元 的 比例 , 则 有 如 下 定理 ， 
定理 6.2 按 简单 随 本 抽样 在 六 个 初级 单元 ( 群 ) 中 抽取 个 , 则 
P=- 直 高 Pp: 一 走 了 eo (6.18) 


是 总 体 中 具有 所 考 如 特征 的 次 级 单元 的 比例 也 的 无 偏 信 计 , 且 
1 7 PP 


POO)- C6.19) 
又 
yp Spi—p)? 
wp) 全 一 (6.20) 
是 六 (p) 的 无 偏 合计 . 


证 明 ”将 天 (了 作为 (初级 ) 单 元 的 指标 ,2 是 样本 均值 , 卫 是 总 体 均 
值 , 于 是 由 定理 2.1、 定 理 2.2 及 定理 2.4 的 推论 即 获得 相应 的 结论 . 
根据 46.197 式 即 可 计算 比例 估计 整 群 扯 样 的 设计 效应 ， 若 对 次 级 单 
元 直接 进行 简单 随机 抽样 , 抽取 mw 个 次 级 单元 , 则 
FDI 
因 市 整 群 抽样 的 设计 效应 








M EP,—P)? 
Vp) 个 
TS 一 PPO 一 (6.21) 
这 里 氏 =1 一 了 .如 果 每 个 也, 与 卫 差别 不 大 , 则 整 群 抽 祥 的 效率 就 比较 
高 , 


6.3.23 群 大 小 不 相等 的 情形 一 一 比 估 计 
对 于 比例 知 计 ， 在 群 大 小 型 , 不 相等 时 ， 用 出 估计 方法 很 容易 处 理 。 
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此 时 卫 的 一 个 自然 的 特 计 是 : 


2 本 二 (6.22) 
3—, 


其 中 mm 是 搜 电 的 第 < 个 群 的 大 小 、 出 于 了 实际 上 是 榜 本 两 个 总 和 之 
比 , 因此 急 据 定理 4.1, 有 如 下 定理 : 

定理 6.8 若 群 的 拍 取 是 简单 随机 的 , 则 对 总 体 比例 了 的 估计 攻 , 当 
大 时 是 近似 无 偏 的 , 且 

1 宫 (m-PUY 1 高 2CP -PY 
BN-—1l nM MN-—1 ” 
(6.28) 

其 中 天 一 襄 离 M1; 是 总 笨 群 的 平均 大 小 ， 又 严 (2) 可 用 下 式 估计 ; 


A 1 no , 和 
4 二 (6.24) 


证 明 ”在 定理 4.1 及 其 推 哗 中 , 用 了 代替 妃 用 x 代 蔡 ae， 用 mu 代 
将 vy;, 即 可 获 证 , 缠 

例 6.5 《( 续 例 6,2. 例 6.4) 随机 抽取 500 个 家 庭 ， 佑 计 男 性 居民 
的 比例 了， 根据 表 6.4 中 的 数据 . 
2 一 500， 社 mm 一 907， 思 mm 一 :8oy， 元 一 38.614，2 一 











907 


一 0.501997， 





uCp) 一 -二 
NP 


1 sa 
(写本 22 训 or 
I 
一 TT be mt Faw 一 2 至 mxqxoew》 


[zesr+ ( i ) X6985 2 六 





I 
” B00x (30614 x 409 
x 3478]|= 6.528189 x 10-5, 


s(p)— wo) 一 0.00803。 
在 例 6.4 中 已 计算 为 得 到 整 群 抽样 相同 精度 的 简单 随机 扯 样 的 样本 
量 应 为 n=4077 人 ， 作为 验证 ,此 时 按 简单 随机 灿 辜 对 比例 佑 计 的 标准 
差 佑 计 ( 取 2 一 0. 历 ， 


Wp)= am 证 红 -0.00783， 
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这 与 前 面 的 结果 相 吻 合 ( 由 于 例 6.4 中 对 deff 的 信 计 是 按 等 群 大 小 计算 
的 , 因此 稍 有 一 些 误差 ). 





36.4 群 大 小 不 等 的 一 般 情形 
在 大 多 到 情形, 群 大 小 M: 是 不 相等 的 ， 此 时 , 若 于 相差 不 多 , 则 仍 
可 按 $ 6.3 中 的 方法 处 理 , 用 平均 群 大 小 再 -~ 富 ad/ 代 蔡 好， 或 先 根 


据 群 的 大 小 分 层 , 在 层 内 按 鞋 画 竟 方法 处 理 ， 当 需要 倘 计 比例 时 , 列 可 用 
6.8.3 颇 的 比 估计 方法 处 理 。 但 是 对 群 大 小 不 相等 的 一 般 情形 , 若 仍 对 群 
进行 简单 随 视 抽样 , 并 取 简 单 估计 , 则 一 般 的 效果 欠 佳 ， 此 时 需 对 估计 量 
进行 改进 或 改变 抽样 方法 , 对 改进 行 不 等 概率 抽样 . 

我 们 将 6.2.1 段 中 的 记号 作 相应 的 改变 . 

记 了 5 为 第 个 群 中 第 了 个 次 级 单元 的 观测 值 (i=I，2,，…，N; 
j=1, 2, …， 开 5， 其 中 af: 是 群 的 大 小 ). 

gi 为 样本 中 第 5 个 群 中 第 了 个 次 级 单元 的 观测 值 (i 一 1，2,，…-，n。 
了 一 寺 2, ,mr 是 群 的 大 小 )、 


可 ,一 高 ML， 是 总 体 中 的 次 级 单元 总 数 . 


了 ,一 总 Pu Ys 加 so 

= 1 ~ 

FP. 六 了 /ago 如 一 入 g/m 

了 = Y/N, 9= Ta/n, 
1=1 dl 

2 a 

-YW y= > jn。 


注意 此 时 对 高 名 yy/ 加 Tm 
为 便于 讨 沦 及 简化 表达 式 起 见 ， 在 本 节 中 主要 讨论 对 总 体 总 和 了 一 
入 各 了 ws 的 估计 , 对 总 体 平均 数 的 傅 计 可 以 从 对 工 的 情诗 推出 来 。 


6.4.1 按 简单 随机 抽样 抽 群 一 一 简单 估计 
车 对 群 竟 抽样 是 按 简 单 随机 抽样 抽 职 的 ,将 每 个 群 和 了 , 看 作为 种 二 
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个 群 的 指标 , 则 根据 定理 2.1, 立即 可 以 得 到 总 体 总 和 了 一 启 了 :的 简单 
` 导 计 : 








全 -之 为 ww. (6:26) 
闻 是 无 偏 的 , 它 的 方差 为 
， SFP) 
Cet -” 
VP)- EA Wi ~ (6.26) 
其 中 一 荐 .而 它 的 一 个 无 饥 佑 计 为 : 
3 总 (or 一 六 
_ 4- 用. 各 
v(F)= OT. 《6.27) 
有 从 (6.35) 可 得 到 了 的 简单 入 计 为 : 
全 Ny a 
之 -ao-- 刘 - 瘟 . 《6.28) 
其 中 开 - 旁 
是 总 体 群 韵 平均 大 小 - 


从 全 的 方差 公式 可 以 看 出 , 它 主 要 取 央 于 每 个 群 和 了 ,的 波动 程度 


6.4.2 按 简单 随机 抽 祥 抽 群 一 一 比 估 计 


在 对 群 进行 简单 随机 抽样 的 情形 ， 另 一 种 可 用 的 估计 是 以 群 的 大 小 
M1 为 辅助 变量 的 比 估 计 , 即 采用 





Pz Mo -到 一. (6.29) 


这 里 mi 即 是 第 4 章 中 的 zt, MY。 即 是 它 的 总 体 和 及, 而 总 体 比 值 BB 在 这 
里 即 是 了 /用 ,~ 罗 ,于 是 罗 的 估计 为 


-人 . (6.30) 





上 述 估 计量 称 为 对 大 小 的 比 估计 (ratio-to-size egtimator)。 
根据 定理 4.1, 人 参 x( 及 全 a) 是 有 偏 的 , 但 当 m 大 时 ， 它 们 是 近似 无 篇 
者 ， 此 时 他 se 的 近似 方差 及 其 估计 分 别 为 ， 
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wf) YM) 





VD WI 
2 MIP, YF)? 
_N Gp, 会 
= — , (6.81) 





一 





本 | 


上 2 4 ] 
2(1— 宇 2 

-aD i. 3 -| 训 人 全 7 人 一 人 | 一 二 PT |、 
高 二 辫 m 


(6.32) 


注意 ; 仓 。 的 方差 主要 取决 于 名 与 罗 的 差异 的 大 小 ， 在 多 数 实际 情 
形 ， ;的 差别 不 是 很 大 。， 但 由 于 ax 可 能 变化 很 大 所 以 了 ;的 差别 也 
可 能 很 大 ， 因 此 尽管 全 是 有 偏 的 , 但 在 大 多 数 情形 , 它 的 均 方 误差 却 比 
银 可 能 小 很 多 。 只 有 当 了 与 于 无 关 时 ， 用 全 ,效果 才 比 较 好 , 但 这 种 
情况 在 实际 问题 中 是 不 多 药 ， 

例 8.5 从 共有 ?90 个 单位 的 某 系 统 中 按 简 单 随机 抽 祥 抽取 30 个 
单位 , 关于 这 些 单位 的 职 上 上 人数 mi. 月 奖金 总 额 ys 及 人 平均 月 奖金 页 列 
于 表 6.5-。 诚 估计 该 系统 人 平均 月 奖金 忌 ， 已 知 该 系统 共有 职工 人 数 
246 一 337208 人， 

简单 估计 ; 

全 一 坟 襄 y=790 x 24073566 - 42603359( 元 )， 








参 - 闻 ooobag 一 126.84 (元 )， 








翌 w- 5)— 1062.19, 


nM; n—1 得 
s (加 )— Yo) 32.59( 元 ), 
对 大 小 的 比 估计 
会 容 w 1078566 
Po alg 105.5452( 元 ) 
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下 6.5 某 系 统 技 简 单 随机 抽 祥 抽 得 的 20 个 单位 的 职工 
人 数 、 月 奖金 总 额 与 平均 数 的 数据 


样本 单位 号 # 职工 人 数 ms 月 奖金 总 额 y 


186 20088 
497 48209 
78 9360 
1218 141288 
23622 





人 均 月 奖金 站 











加 加 上 加 MAWOE 
Ee 
忆 
中 





2 mu | = 13.5859, 


nmi) Ms te 
(入 ) Vo( 吉 ,) = 3.69( 元 ) 
比较 两 个 佑 计量 的 标准 差 ， 可 知 对 大 小 的 比 估计 戎 。 远 比 简单 佑 计 精 克 


得 多 . 
6.4.8 对 群 进行 不 等 概率 抽样 

在 群 大 小 不 等 的 整 群 中 ， 最 常用 且 最 有 效 的 方法 是 对 群 进 行 与 其 
大 小 成 比例 的 不 等 概率 抽样 。 此 时 可 用 上 章 介 绍 的 族 辣 PPS 抽样 或 任 
条 一 种 不 放 癌 的 xPS 十 样 。 在 估计 时 , 只 要 将 群 和 工 : 看 成 是 它 的 指标 ， 
出 可 直接 应 用 Hansen-Hurwits 入 计量 或 Horvitz-Thompson 估计 
重 . 

1) 若 群 的 抽样 是 按 与 ad 成 比例 的 概率 放 回 PPS 抽样 ， 即 每 次 抽 - 
样 是 按 

Dm C1, 2, HN) 

的 概率 在 总 体 中 抽取 第 * 个 群 (初级 单元 )， 独 立 放 回 地 抽取 % 个 群 ， 其 
大 小 及 观测 的 群 和 分 别 为 ra 及 &, 则 总 体 总 利 荆 的 估计 为 : 
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于 6.33 
他 wa 一 nn 记 人 Nn 剖 Ty Dy ( ) 
其 中 
一 土 剖 人 人工 六 6.34 
7 nm nn 翌 引 《 ) 


根据 定理 5.1, 闻 xu 是 了 的 无 偏 估计 , 它 的 方差 为 
(Pua) 一 二 高 2( 于 了) 一 MAY, YD), (6.85) 








它 的 一 个 无 偏 估计 为 
工 Sy We 23_ M3 -Spor 
“Pa -LT 其 天 一 Po) i SD" 
〈《6.836) 
车 估计 的 目标 量 是 也, 则 有 以 下 简单 的 形式 。 
到 一 i 呈 一 
Ya 二 启 (6.87) 
它 是 豆 的 无 偏 估 计 , 它 的 方差 与 方差 估计 分 别 是 : 
会 工 心 了 二 
V Oa) MY, PF) 《6.38) 
本 1 we  ， 
aas) 一 nny 六 一 动 ?. (6.89) 


与 简单 随机 抽样 中 的 对 大 小 比 估计 全 s 的 情况 类 做， 人 参 e 的 方差 到 
决 于 了 了 ((30) 的 差异 ， 因 此 对 于 次 级 单元 比较 均匀 的 通常 情况 , 用 PPS 抽 
样 效果 很 好 . 

2) 车 群 的 寺 祥 是 用 任何 一 种 严格 的 PS 抽样 方法 时 ， 了 了 的 售 计 应 
用 Horvitz-Thompson 合计 : 


Par- 六 2 . {6.40) 


它 也 是 无 偏 的 ， 其 方差 与 方差 估计 由 定理 5.2 及 定理 5.8 给 出 。 例如 车 
用 Brewer 或 Durbin 方法 抽取 ”一 和 个 群 ， 志 样本 群 的 编号 为 1，3, 则 
全; 一 了 1 了 34([ 委 | 如 ， 
m1 ga 2 za 4 


M2 TH: Ya Ya 
VD) -一 人 健一 各) » 


12 m1 ra 


a Sm 
其 中 Wi= 322: 一 Me 《一 工 | 9), 
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dgaK 了 一 gt 一 za 
未 > 
一 sz)G 一 2zo) 人 + 襄 了 2 了 工 等-| 
3) 若 用 其 他 不 放 回 不 等 概率 方法 抽取 群 , 则 估计 时 需 用 相应 的 特殊 
统计 量 ， 例 如 用 Rao-Hartley-Cochran 方法 抽取 mm 个 群 , 则 
no- 六 如 各. 
其 中 2 是 将 总 体 殖 机 划分 成 的 第 9 个 群 组 (由 初级 单元 组 成 的 组 ) 的 元 
的 和 ， 依 rxo 也 是 无 偏 的 , 它 的 方差 估计 量 为 : 





Wi2 = 





六 NN 3 
oP nac)— i 避 (天 -Pumo) 


6.4.4 数值 例 于 一 一 对 交通 运输 量 的 调查 
例 6.6 基地 交 壮 部 门 所 属 的 4 个 单位 的 每 个 单位 的 营业 性 货车 前 
标识 吨位 和 于, 如 表 6.6 世 未 .共有 总 吨位 型 。 一 Tt861 议 量 》. 为 统计 该 
























































部 门 某 月 完成 前 货运 周转 量 了 与 运 量 Ze， 以 232; 为 单位 大 小 进行 放 
加 PPS 抽样, 共 抽 得 40 个 单位 〔 其 中 有 一 个 单位 抽 宁 2 次 )、 对 每 个 样 
本 单位 调查 其 所 有 货车 完成 的 周转 量 与 运 量 之 和 , 其 数据 列 于 家 6.7, 试 
表 8.8 其 部 门 各 音信 拥有 的 营业 性 货车 的 上 吨 位 和 以 及 PPS 外 祥 结果 
| 位 和 了 is 腺 各 吨位 和 azs] 昧 积 吨 亿 
1 104 104 33 157 8147 
2 84 192 34 I07 8254 
3 26 218 19 i164 5654 35 ?4 8328 
4 542 760 20 60 S714 36 62 3390 
5 117 S77 21 246 五 960 37 57 Bd47 
二 55 932 822 162 6122 38 A468 B915 
7 2136 3068 23 30 6152 39 245 3160 
3 i79 3247 24 100 8252 40 136 9296 
9 80 3327 25 124 6376 41 120 9416 
1n 740 A067 28 378 6754 42 216 3632 
11 288 4355 27 89 6843 43 60 Io092 
12 188 4523 28 148 6986 44 955 1i047 
33 132 4655 29 145 T7181 45 387 了 1434 
34 200 4855 30 244 7375 46 64 1i498 
15 325 5180 31 527 7902 47 108 1606 
1 4d7 5227 32 88 T7990 48 255 11861 
-一 一 -一 一 一 -一 | 1 2 Dee 
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估计 该 部 门 全 月 完成 的 了 工 b 与 了 %, 并 计算 其 精度 . 
10 个 1~11861 范围 内 的 随机 数 ( 按 产 生 的 顺序 ) 
及 对 应 抽 中 的 样本 单位 号 如 下 : 
5095(157，I0777(44)，7547(31)，31T09(7) ，9940048)， 
6610(26), 3282(7), 4868(12), 3298C35), 467 (4 ， 


沾 6.7? 运输 量 调查 的 样本 数据 ( 按 原 单位 序 



































| EE | “生涯 
工 4 542 2724040 14848 F025 .904 27 .39483 
2 了 2136 933T140 48292 4868,511 22.60861 
3 了 2136 £331140 48292 4868.511 28.60861 
4 123 168 729790 4369 4343 .988 26.00585 
5 15 325 1547960 T7485 4762 .953 28.03076 
6 26 378 1928600 B061 5102.116 号 1 .32539 
了 了 弹 527 2182280 14436 4140 .948 27.89278 
8 35 了 4 82819780 工 756 4821.351 23.72973 
9 43 460 2019930 10552 4391.152 22.93913 
i0 对 955 4754870 24635 A4978.921 25.79581 
3 4580.435 24.28816 








根据 表 6.7 中 的 样本 数据 ， 按 (6.33) 与 (6.86) 式 ， 可 计算 总 周转 量 
与 总 运 量 的 估计 与 方差 , 进一步 可 计算 估计 量 的 标准 差 与 变异 系数 ， 
M,—11861, n=10, 


2 
Pe 训 - My, 


Fen) = 


对 于 总 周转 量 了 的 估计 ,计算 结果 为 ，; 
人 B=: 至 ， 2 T1861 x 4580.435 — 54328549(+.kEm), 


v (Py )- rs 3 (3 一 系 ?D)2 一 PE x 129725.5 


一 工 . 人 
a PE) 一 Vo FPR) = 1318980(4-km), 


cv(PFEE)— Ef) .4186%. 


对 于 总 运 量 了 2 的 估计 , 计算 结果 为 
Mp" 11861 x 24.28816- 288022.6(), 
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工 1 


vPE)—— gy 61 xx 和 .738465 


mn zy 各 
= 66663308， 
s(PE) = VoPB)= 8164.70C4), 
oo( 了 8) SE -2.0907%. 


从 变异 系数 值 可 知 , 对 两 个 指标 估计 的 相对 误差 在 95% 置信 度 下 终 
为 扎 史 《两 倍 变异 系数 ) 


第 7 章 
二 阶 与 多 阶 抽样 


§7.1 引 言 


了 7 了 .1.1 定义 及 适用 场合 

定义 .1 著 总 体 中 的 契 个 初级 单元 每 个 都 由 车 于 次 级 (或 称 二 级 ) 
单元 组 成 ， 在 总 体 中 按 某 种 程序 抽取 盖 个 初级 单元 ， 然 后 对 每 个 被 抽 中 
药 初级 单元 再 抽取 若干 个 次 级 单元 , 这 种 抽样 称 为 二 阶 抽样 , 也 称 二 级 抽 
样 (two-stage sampling), 其 中 总 体 中 抽取 初级 单元 称 为 第 一 阶 抽样 ,从 
初级 单元 中 抽取 次 级 单元 称 为 第 二 阶 抽样 。 

从 整 群 油 样 中 我 们 知道 ,如果 辐 -- 初 级 单元 中 的 次 级 单元 比较 相似 ， 
也 即 当 群 内 相关 pe 比较 大 时 ， 整 群 抽样 的 效率 就 比较 低 ， 事实 上 ， 此 时 
没有 必要 对 该 初级 单元 中 的 所 有 次 级 单元 都 进行 调查 ， 仅 需 调 查 其 中 一 
部 分 即 可 ， 换 言 之 , 此 时 需要 在 每 个 被 扫 中 的 初级 单元 中 , 对 次 级 单元 进 
行 一 次 再 抽样 , 这 就 是 二 阶 抽样 . 

如 时 每 个 二 级 单元 又 可 进一步 分 为 更 小 的 三 级 单元 ， 那 么 在 每 个 第 
二 阶 抽样 中 被 朱 中 的 二 级 单元 中 , 若 对 其 中 的 三 级 单元 进行 再 抽样 , 也 即 
进行 第 三 阶 抽样 ， 则 整个 抽样 过 程 就 称 为 三 阶 宙 样 (ihree-stage sampl- 
ing). 以 此 类 推 , 可 以 定义 更 一 般 的 多 阶 抽样 (mulii-siage sampling). 

二 论 及 多 和 阶 抽样 保持 了 (一 阶 ) 整 群 抽 禅 祥 本 单元 相对 集中 的 特点 ， 
六 此 实施 方便 且 平 均 每 个 基本 单元 的 调查 费用 也 较 低 . 另 一 方面 ,二 阶 
与 多 阶 抽样 又 避免 了 对 较 小 单元 进行 过 多 调查 的 浪费 ， 因 而 大 大 提高 了 
效率 ， 多 阶 拍 样 的 另 一 优点 是 在 抽样 时 并 不 需要 全 部 二 级 或 更 低级 单元 
的 抽样 框 ， 当然, 对 于 第 一 阶 抽 样 , 初级 单元 的 抽样 框 是 必需 的 .在 以 后 
各 人 阶 抽 桩 中 , 仅仅 需 对 那些 已 握 中 的 单元 准备 下 一 级 单元 的 摘 样 框 . 这 在 
实际 问题 中 是 非常 方便 的 ， 因 而 多 险 抽 样 (包括 二 阶 拍 样 ) 在 实际 中 应 用 
非常 广泛 。 特 别 是 当 抽 样 单元 家 采 用 各 级 行政 单位 或 有 求 筷 关系 的 单 
位 时 , 更 是 如 此 。 例 如 对 于 一 项 全 国体 抽样 调查 , 若 调查 不 需要 在 每 个 省 














:0 弟 7 章 二 阶 与 多 防 抽 样 
进行 时 , 就 可 将 省 作为 一 级 单元 , 第 一 价 拍 样 先 抽 省 .然后 在 每 个 质 中 的 
省 (或 称 样本 省 ) 进行 第 二 阶 抽样 一 抽 市 或 县 ， 对 每 个 样本 市 、 县 又 可 
进行 第 三 阶 抽 样 一 一 抽 街 道 .镇 或 乡 等 等 ， 在 这 过 程 中 , 我 们 并 不 需要 准 
备 全 国 各 省 中 的 市 .县 及 衔 道 .乡镇 的 项 祥 框 。 在 第 一 阶 抽样 中 , 仅 需 要 
关于 省 (自治 区 、 喜 辖 市 ) 的 抽样 框 。 对 于 每 个 被 抽 中 的 省 (自治 区 ， 直 辖 
市 ) 才 需要 进一步 准备 市 .县 的 抽样 框 , 对 每 个 被 抽 中 的 市 .县 准备 有 关 衔 
道 及 乡镇 的 抽样 框 ,…。 从 行政 系统 而 言 , 街道 . 乡 、 镇 以 下 划分 居民 委员 
会 或 村 民 委 员 会 , 居 ( 村 ) 民 委 员 会 以 下 划分 居 ( 村 ) 民 小 组 , 直到 住户 及 往 
户 中 菌 每 一 口 人 ， 当然 在 多 阶 抽样 中 ,各 级 单元 的 划分 并 不 一 定 与 行政 
系统 完全 一 致 ,是 比较 灵活 的 、 例 如 在 全 国 性 饥 样 中 如 果 将 市 .县 作为 一 
级 单元 , 则 只 要 淮 备 一 份 全 国 所 有 市 上 县 的 抽样 框 ， 即 可 直接 抽 市 , 县 ， 同 
样 , 对 于 一 项 以 住户 为 基本 单元 的 调查 ， 可 以 在 铀 到 街道 或 乡镇 以 后 ， 跳 
过 居 《 村 ) 民 委 员 会 或 居 ( 村 ) 良 小 组 ， 直 接 抽 户 . 再 如 对 于 一 项 在 京 中 央 
直属 单位 的 专业 技术 人 员 情 况 前 调查 , 可 将 部 委 , 司 局 级 单位 、 处 或 基层 
单位 与 个 人 作为 各 级 抽样 单元 , 进行 多 阶 抽 样 . 显然 , 多 阶 抽 样 的 组 织 管 
理 也 是 比较 方便 的 . 
多 阶 抽样 还 可 用 于 “ 获 料 ”的 抽样 , 即 散 料 抽样 Cbulk sampling). 所 
亩 “ 散 料 ”是 指 连续 松散 的 、 不 易 区 分 个 体 或 抽检 单 元 的 材料 ， 钙 如 一 堆 
煤 , 一 仓库 粮食 , 一 列车 水 泥 , 一 船 化 肥 等 。 对 于 散 料 , 抽样 单元 需要 人 为 
划分 , 当然 也 可 以 取 其 自然 的 单位 , 特别 是 当 货 物 已 经 包装 后 ， 通 常 对 于 
散 料 抽 梓 ,一 级 单元 蚌 自 然 或 人 为 划分 的 分 装 ( 例 如 一 侈 化 肥 或 一 车 皮 矿 
石 )， 二 级 单元 则 是 从 分 装 中 (有 时 需要 从 其 中 各 个 部 位 ) 拍 取 一 定数 量 
(例如 一 公斤 ) 的 份 样 . 


7.1.2 实施 方法 及 同 其 他 抽样 方法 的 关系 


在 二 阶 或 多 阶 抽样 中 , 每 一 阶 的 具体 抽样 可 以 是 多 种 多 样 的 ,在 应 用 
中 , 比较 多 的 情形 是 当初 级 单元 大 小 相等 时 ， 常 用 简单 随机 抽样 ; 而 当初 
级 单元 大 小 不 等 时 ， 册 在 第 一 阶 抽 样 时 多 用 放 回 或 不 放 回 药 与 单元 大 小 
成 比例 的 不 等 概率 抽样 .在 每 个 阶段 也 可 用 下 一 章 介绍 的 系统 持 样 .此 
外 ,二 芥 或 内 阶 抽样 也 常 与 分 层 抽样 及 整 群 抽样 结合 起 来 。 在 许多 情况 
是 在 某 些 阶 的 抽样 (特别 是 第 一 阶 与 第 二 阶 抽样) 中 进行 分 层 抽样 的 ， 在 
某 些 情形 , 则 是 在 最 后 一 阶 中 不 再 抽样 ， 调 查 下 一 级 的 所 有 单元 ， 这 即 是 
多 阶 整 群 抽样 (mnlti-stage cluster sampling)， 例 如 : 车 在 一 个 二 阶 拍 
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桩 中 , 对 每 个 在 第 二 和 阶 抽样 抽 中 的 二 级 单元 调查 其 中 所 有 的 三 级 单元 , 就 . 
是 一 个 二 阶 整 群 抽样 . 

实际 上 ， 分 层 抽 禅 与 整 群 插 祥 都 可 以 看 成 是 多 阶 抽样 的 特例 ， 以 二 
阶 抽样 为 例 , 车 总 体 中 包含 玉 个 初级 单元 ， 在 第 一 险 抽 样 从 中 抽取 个 
初级 章 元 , 设 第 个 初级 单元 中 包含 本 个 次 级 单元 , 第 二 阶 抽样 从 中 摘 
取 ma 个 次 级 单元 , 则 当 nw 一 叉 时 , 即 是 分 层 抽样 ; 而 对 每 个 如 当 mas 一 ad: 
时 , 则 是 (一 阶 ) 整 群 抽样 ， 

对 于 一 个 二 阶 或 多 阶 抽 洋 , 抽样 过 程 包括 两 步 或 多 步 , 因此 对 于 总 体 
参数 8 的 任何 一 个 估计 量 6 求 均值 与 方差 时 ， 必 须 用 第 3 章 中 有 关 二 步 
抽样 的 结果 ( 引 理 3. 刀 . 例如 对 于 二 午 抽 祥 

BO) = EB:(®), (7.1) 

VO= VE] + V0)], (7.2) 

其 中 加 TV; 分 别 是 对 第 一 阶 抽 样 求 的 均值 与 方差, 召 、 也。 是 对 固定 的 第 

一 阶 抽 样 中 抽 得 的 一 组 初级 单元 对 第 二 阶 抽 祥 求 的 均值 与 方差 ， 对 于 三 
论 地 样 , 也 有 类 似 的 公式 。 

EH) HBH.B,(0), (7.8) 

VO = VABLE()]} + BV LEO + Bt{Es [Lyd0))]}. 

(7.4) 

在 本 章 中 重点 讨论 二 阶 所 样 。 为 了 篇 化 起 见 ， 先 考虑 每 个 初级 单元 
都 包含 相等 数量 (ax 个 ) 的 次 级 单元 ， 在 每 个 第 一 阶 抽 样 中 抽 中 的 所 有 
个 初级 单元 中 抽取 mm 个 次 级 单元 ， 且 所 用 的 抽样 都 是 简单 随机 的 。 在 此 
基础 上 , 讨论 一 般 的 初级 单元 大 小 不 等 的 情形 .对 此 , 我 们 先 考虑 % 一 1 的 
特殊 铺 形 , 然后 再 推广 到 n>>1 的 一 般 情 形 ， 最 后 就 三 阶 以 及 更 高 阶 的 多 
阶 铀 样 作 一 简单 欧 介 绍 . 

















37.2 二 阶 抽样 一 一 初级 单元 大 小 相等 的 情形 


本 节 讨 论 每 个 初级 单元 六 小 ( 即 其 中 包含 的 次 级 单元 的 数目 ) 相等 情 
形 的 二 阶 抽样 ， 我 们 假定 每 一 阶 抽样 都 是 按 简 单 随机 抽样 进行 的 ， 第 一 
阶 抽 样 是 从 好 个 初级 单元 中 抽取 ”个 初级 单元 ; 第 二 阶 抽样 是 在 每 个 所 
中 的 初级 单 无 所 包含 的 型 个 次 级 单元 中 抽取 mm 个 次 级 单元 ， 另 外 , 第 二 
阶 抽 样 对 每 个 初级 单元 丽 言 者 是 相互 独立 的 - 

考虑 这 种 情形 的 主要 了 原因 是 为 简化 问题 的 讨论 ， 得 到 二 航 搬 样 的 基 


202 第 7 章 二 阶 与 多 阶 抽 祥 

结果 ， 在 实用 中 , 可 先 将 总 体 中 的 初级 单元 按 大 小 分 层 , 使 层 内 的 单元 
大 小 大 致 相同 ， 共 而 可 应 用 本 节 的 结果 如 果 不 能 这 样 做 或 者 为 了 使 设 
计 更 为 精确 , 贴 须 用 以 后 各 节 介绍 的 方法 . 




















7.3.1 记 号 
记 了 了 4 为 第 个 初级 单元 中 第 了 个 次 级 单元 的 指标 值 (一 1 2,…， 
N; j=—1, 93, .…, M). 
3 为 样本 中 第 名 个 初级 单元 中 第 了 个 次 级 单元 的 观测 值 (一 9, 








m1, 2 ,0), 
户 -里 ， 户 - 吧 ， 
让 四 
Y=DYws, = DY, 
并 fl 
YF,— YM, Ye gh/ Phy 
F- 久 了 ww， 9g- 高 3/m 
全 Ee 
1 
一 一 sib 一 玖 3 
NH 
A FD 可 ro ， 


1 人 _ 
Pre 

其 中 售 与 各 分 别 是 总 体 与 拌 本 中 初级 单元 间 的 方差 ，S8 与 号 分 别 
是 总 体 与 样本 中 同一 初级 单元 中 次 级 单元 闻 的 方差 ， 或 称 初级 单元 内 的 


方差 .如 果 令 


如 一 


SE— ple -P25 





证 工 
别 S53 即 是 所 有 S58 的 平均 值 : 
= 元 这 2 BE 
注意 在 第 6 章 中 ,了 与 y, 了 : 与 落 除 了 分 别 玫 未 总 体 与 祥 本 的 有 关 
量 外 , 在 数值 上 并 无 差别 。 而 在 本 章 中 % 仅仅 是 第 二 阶 抽样 中 所 抽 得 的 
这 部 分 ( 共 m 个 ) 次 级 单元 观测 值 的 和 ，3, 也 只 是 这 些 单元 观测 值 的 平均 
证 。 
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7 了 .2.2 估计 量 及 其 方差 
定理 7?,1 对 于 二 阶 抽样 ,车 两 个 阶段 的 抽样 都 是 简单 随机 的 , 则 


EY)=, 《7.5》 
_ 1— 1—fs us 
FWD- (7.6) 


证 明 ”由 于 每 一 阶 抽 样 都 是 简单 随 视 的 ,根据 (7 .1) 式 , 有 
pn i) 
~)] 
-也 [ 二 3 Z] =- 了 . 
的 注意 到 在 每 个 初级 单元 中 的 第 二 阶 抽样 是 相互 独立 





VDTV BA + EF: (8)] 
-ps ( 生 写 了 +  [ [7 二 训 ] 


A. 访 (Y,- 立 )? 
NW—1 
0m 
2 
+ 如 [ 去 冤 mn 一 工 ] 





一 工 一 请 gs 1 -fs H 
a 车 ] 
fy Sa Tf i Tos 
2 it A | 专访 号 ] 
-gr lf. 量 
% me 
定理 7.2 对 于 二 阶 抽 样 ,车 两 个 阶段 的 抽样 都 是 简单 随机 的 , 风 
sD- ts 人 .人 
是 六 (9) 的 无 偏 估计 . 
证 明 对 吕 与 到 分 别 利用 (7. 式 分 两 步 求 均 信 ， 
画 [o 一 芒 归 一 瑟 [ 宫 信 - 劝 ?] 





在 上 式 中 


因而 


从 而 


从 
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-以西 一 as 人 的) 
一 祝 {CBoG0]?+PG0] n{ [BB)1+Va(y)} 


we lf we lp 
Fit (主语 7.) 


EB(s?) = BL Ea(sH)] 


SP-P), 1 ss, 
| 
SI+ Ld 3, (7.8) 


DC) — Es [HCs8)] 
~- 奴 伍 高 志 [ 岛 @w-50]} 


?一 二 si 
-人 [yr 名 cr 


~ Sg (7.9) 
褒 训 S253 . 











Blo- BH [4]+a [Es] 


nm 


一 工 一 产 St Lt (fs) 93 
nn Tn 


-二 全 Sit SE- yg). 站 
.8) 式 与 (7.9) 式 可 以 看 到 对 于 此 种 情形 的 二 罩 抽 样 ， 初 级 单元 








内 样本 方差 强 仍 是 总 体 相 应 方差 583 的 无 仿 估 计 ， 但 样本 初级 单元 间 的 
方差 吕 并 不 是 总 体 初级 单元 间 方 差 83 的 无 偏 居 计 ， 因此 多 方差 估计 公 
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式 (7.7) 在 形式 上 与 VY( 四 的 公式 稍 有 差别 ， 在 第 二 项 中 多 一 个 产 的 因 
子 . 这 一 点 请 读 考 特别 注意 . 
由 于 《7.6) 式 与 (7.7) 式 中 第 二 项 的 系数 比 第 一 项 要 小 得 多 ， 因 此 在 
二 阶 抽样 中 , 估计 量 的 方差 的 主 项 是 第 一 项 。 第 二 项 与 第 一 项 比较 起 来 ， 
通常 要 小 很 多 ， 参看 87.2.4 的 数值 例子 . 
推论 ”对 于 二 阶 抽样 





EE Re (7.10) 


ne 





是 人 的 无 偏 估 计 . 
证 明 根据 (7.8) 与 (7.9) 式 即 得 . 上 


7.2.3 最 优 抽样 比例 

在 二 界 抽 样 中 ， 在 给 定 总 费用 下 如 何 确定 第 一 阶 抽 样 祥 本 量 ”与 第 
二 阶 抽样 (每 个 初级 单元 中 的 抽样 ) 的 样本 量 mm， 使 估计 量 如 的 方差 达到 
最 小 , 或 在 给 定 的 天 ( 殉 条 件 下 , 使 费用 最 省 , 这 就 是 最 优 抽 祥 比 六 、 疡 的 
确定 问题 . 

考虑 下 述 简 单 的 线性 费用 函数 

加 一 co 十 ci 十 Canmay (7.11) 

若 初 级 单元 闻 的 旅费 不 占 重要 位 置 , 则 上 述 费 用 函数 被 证 明 是 适用 的 . 这 
里 co 是 与 样本 量 无 关 的 固定 费用 , eee 分 别 是 每 调查 一 个 初级 单元 与 次 
级 单元 的 费用 .注意 必 .6) 式 可 改写 成 


_i/gs 8 3 53 
FG-(8- 汪 )+- 呈 -学 . (7.12) 


上 式 最 后 一 项 不 依赖 mm 与 .于 是 在 固定 0 下 极 小 化 六 (办 或 国定 (3) 
下 极 小 化 C 等 价 于 般 小 化 
(P+ 雷 (一 四 一 [ss- 如 ) 于] 人 oo 
































<(S3+ Got oom), (7.18) 
其 中 
Be- 己 ~- 量 . (7.14) 
根据 Qauehy-S9ehwarz 不 等 式 , 当下 式 


ee 
Ss/Vm vcam 
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成 立时 , 《7.13) 式 迷 到 极 小 信 ， 因 此 mm 的 最 优 什 


moot 入 a. (7.15) 
由 于 mmomt 一 般 不 为 整数 , 在 具 栖 应 用 时 , 应 将 它 会 入 成 整数 ， 为 此 ， 
OQameron (1951) 给 出 了 以 下 的 规则 


令 ml 是 mont 的 整数 部 分 , 即 ms'- [mood], 则 

(1) 著 me>mm9 十 了 D, 则 取 名 一 tw 十 志 

多 车 Cm 二 让 ) 风 取 r== 83 

(8) 车 maot> 下 或 时 一 各 一 0. 则 到 mm 一 了 

求 出 mm 后 , 根据 (7.11) 或 (7.12) 式 即 可 求 出 的 值 , 从 而 确定 了 最 优 
的 户 与 户 - 

可 以 证 明 , 当 % 大 时 ， 
(7.16) 








3 工 一 pa 
2 了 


其 中 po 是 将 初级 单元 看 作 群 的 群 内 相关 (系数) 


7.3.4 ”数值 例子 一 一 生猪 存栏 量 的 调查 
例 了 .1 为 调查 某 县 年 终 时 生猪 的 存栏 数量 , 采用 二 阶 抽样 . 第 一 阶 
较 简 单 随 白 抽样 抽 村 ， 第 二 阶 在 抽 中 的 村 中 抽 农 户 . 登记 这 些 农户 当时 
实 养 的 生猪 头 数 、 有关 数据 如 下 ; 
太一 325， 服 一 54 (平均 每 村 的 农户 数 )， 
n=123, m=10, 
ff —0.0869, fo=0.1852. 
样本 数据 如 表 7 了 .1 所 示 . 


玫 7. 工 中 的 号 = 7 站 Co 一 2 
根据 表 7.1 的 数据 , 可 计算 得 : 
一 土语 和-8.150, 





了 襄 (: 一 D’=2.328, 





PE 9:)?—1.461, 
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表 7T 某 县 生猪 存栏 量 调查 的 样本 数据 

















时 Me He 有 

工 3, 1, 2, 2, 1, 1, 1, 0, 2, 3 16 16 0.933 
2 2, 1, 3 0, 4 5, 2, 3, 2 24 2.4 2.044 
3 7, 4 6, 4, 6, 5, 6, 4, 3, 6 1 5-1 1.556 
二 202;5 3 8.1 1.878 
5 5, 4, 5, 8, 7T, 5, 4, 6, 5, 4 4 4.8 工 .289 
6 2, 1, 0, 3, 3, 1, 2, 0, 2, 2 14 1.4 0.983 
了 2, 5, 4, 0, 2, 2, 2, 3, 3, 2 5 2.5 1.833 
8 和 和 3 二 2 和 645 41 1 1.21L 
9 1, 3, 3, 0, 2, 1, 2, 0, 3, 2 16 1.6 1-155 
10 3, 5, 7, 4, 5, 3 了 ,后 5 香 a7 4.7 2.011 
1 9, 1, 1, 0, 9, 2, 1, 2, 1, 3 14 1.4 1.156 
了 2 5 51 Bl 工 -433 

CE -一 -一 -~ 一 


sD- A 
EE mr 
.0.9631x2.323 + 0.0869x0.8148 X 工 ,461 
192 12 
一 0.18644 十 0.00037 一 0.18681， 
Au 而 一 0.43322. 
全 县 生猪 存栏 量 的 估计 凶 及 其 标准 差 合计 分 别 为 ， 
P325 x BLxX3.15= 55383( 头 )， 

s{(P)— Vo(P)—325x 54x0.4929=7588 ( 头 ). 

从 标准 差 的 数值 看 ,， 人知 计量 的 精度 是 不 够 的 。 因此 和 需要 如 大 样本 量 
才能 改善 精度 。 而 从 上 面 计算 过 程 中 可 以 考 出 ， 需 要 加 大 的 只 是 第 一 -全 
抽样 的 样本 基 m 也 即 寿 村 的 数目 .因为 方 卷 w( 多 ) 的 主要 来 源 是 第 一 项 ， 
事实 上 , 在 本 例 中 取 m= 10 来 必 合 理 。 设 费用 函数 由 (7.I1) 式 给 出 , 即 


0O= cteomt eamnm, 


虽 按 (7.15) 式 , m 的 最 优 值 由 下 式 确定 : 











Ss jer 
Poopt— Eb A 


我 们 用 记 - 本 一 革 二 人 2 一 与 大 一 雪 分 曾 信 计生 及 人 ,而 : 


网 Ge I 2 2 
人 -全 一 各 -总攻 -2.1769. 





208 ， 第 7 章 二 阶 与 多 阶 抽样 


my 
设 ccs 一 0, 则 mop: 一 3.86. 
因为 mg 一 .49>3x4= 巧 , 故 按 Cameron 规则 取 澡 = 和 4, 固定 入 
后 ,m 由 总 费用 CO 或 对 了 的 方差 要 求 的 数值 而 定 . 


7.3.5 关于 比例 的 估计 
着 所 有 的 次 级 单元 可 分 成 两 类 , 欲 估计 具有 茶 种 特性 单元 的 比例 , 则 


可 用 通常 的 方法 , 令 
ru 1， 车 第 6 初级 单元 及 j 次 级 单元 具有 此 特征 ; 
“0， 香草 ， 





令 
rs 一色 《7 .177 
为 拥 到 的 第 4 个 (初级 ) 单元 中 具有 此 种 特征 的 样本 次 级 单元 的 比例 ， 则 
总 栖 比 例 卫 的 估计 为 ; 
B= Dp/n. (7.18) 


eT 


此 时 若 记 gc 一 工 一 po 则 
(V4 — 8 = mmpeges 


Lp )? 
工 名 人 一 2 ， 





nO— 


a 家 pc. 
根据 定理 7.1 与 定理 7.2 有 上 以 下 定理 ， 
定理 了 .8 关于 化合 的 二 阶 搬 样 ， 若 两 个 阶段 的 拍 样 都 是 简单 随机 
的 , 则 





8 一 高 p/n 
是 总 体 比 饥 卫 的 无 仿 情 计 , 昌 矿 人 ) 的 一 个 无 偏 佑 计 为 ， 


" 国 - 二 i 2 Fy+ 妇 和- -人 Bee. 19 


例 7. 多 对 某 市 专业 技术 人 员 现 状 的 调查 中 ， 有 这 样 一 个 问题 “您 
是 闸 先 成 单位 有 选择 工作 人 员 的 权利 ， 同 时 工作 人 员 有 选择 单位 的 权 
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利 ?” 回 答 的 选择 项 只 有 两 个 , 即 “ 赞 成 六 记 为 1),“ 不 鞠 成 ”*( 记 为 0).， 设 
手 样 方案 是 按 二 蛋 抽 样 抽 取 的 ; 第 一 阶 抽 单位 , 第 二 阶 在 抽 中 的 单位 中 抽 
专业 技术 人 员 ， 为 简单 处 理 起 见 , 暂且 假定 两 阶 抽样 都 是 简单 随机 的 , 每 
个 单位 所 包含 的 专业 技术 人 员 数 目的 差异 也 不 天， 有 关 参 数 如 下 ， 

mm 950， 户 一 0.045。 mw 一 5, fs 一 0.19 (平均 值 ). 
在 350 个 祥 本 单位 中 ; 对 该 问题 回答 “ 贰 成 ”的 专业 人 员 数 下 (FE 一 0, 1 …， 
男 ) 的 频数 mw 分 布 如 表 7”.2 所 列 . 
夏 7Y.2 

















于 是 
P= Srwpr 
国 1+0.9x8+0.4x38+0.6 x 7+0.8x195+1.0x 34] 


173 


一 了 二 3 0.6 
0 一 88， 
pi—B)?— np 
合 #2 
—127.99—118.836— 9.584, 
加 5 
六 ?9 一 放 prar 一 44.08. 
于 是 


5 1—0.045 0.045(1 - -0 12) 
HB) 3600060—1) x 9.584+ pi xd4.08 
=0.000147+0.000007= 0.000154, 
MVP) = 0.0194. 
了 .2.6 分 层 二 阶 抽样 


对 于 分 层 二 阶 抽样 , 设 同 一 层 内 的 初级 单元 大 小 都 相等 , 但 不 同 层 内 
的 可 以 不 相等 , 记 第 丸 层 内 每 个 初级 单元 包含 下, 个 次 级 单元 , 总 体 中 的 


次 级 单元 总 数 为 吉 Wa 个 、 在 歼 层 中 按 简 单 随机 抽 禅 抽 mw 个 初级 单 
元 , 对 每 个 被 抽 中 的 初级 单元 再 用 同样 方式 手 取 ms 个 次 级 单元 , 则 总 体 
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中 按 次 级 单元 的 均值 的 分 层 二 阶 估计 量 为 ， 
BN Mr 











了 :一 一 全 也 WaB, (7 .20) 
其 中 
WW (7.21) 
az 
古 按 次 级 单元 个 数 的 层 权 , 而 
各 yy 
i {7.22) 
为 多 屋 的 样本 平均 数 ， 
将 定理 7.1 与 定理 7.2 用 于 每 一 层 , 则 有 
可 一 fw se 1—fon se 
VM + ss), (7.29) 
一 2f 工 一 aa sa Sm fn) Go 
vg) -PWS ee 号 )， (7.24) 
其 中 
be Me 
75- 如 fm- 了 7.25) 


为 得 到 总 体 总 量 的 信 计 允 。 一 (高 WM，) 如 的 方差 及 其 估计 , 可 
在 人 7.99) 式 与 人 .99 式 中 乘 上 ( 悦 Na 
与 公式 (7.15) 一 到 在 费用 函数 为 











O 一 co 十 加 can 十 避 ora (7 .26) 
时 , 固定 使 六 达到 极 小 或 固定 合 GO 达到 极 小 的 ms 的 最 优 值 为 : 
， So em a So /em 
Th VS SE oo Be co C7.27) 


现在 我 们 考察 在 分 层 二 防 抽样 中 , 所 得 样本 是 自 加 权 的 条 忻 , 这 个 条 
件 是 在 每 层 抽样 中 , 每 个 次 级 单元 被 独 中 的 概率 皆 相 等 , 或 等 价 的 ， 对 每 
一 层 总 的 抽样 比 j 为 常数 fo 于 是 一 个 分 层 二 阶 样本 是 自 加 权 的 条 件 
是 : 





fafam-- 窜 他 = Ch=1, 了 DB). (7.28) 
根据 (7.20) 式 , 对 于 自如 权 的 分 层 二 阶 样本 ， 
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Lm 
CR (7.29) 


衬 
三 


$7.3 二 有 阶 般 禄 一 一 初级 单元 大 小 不 等 情形 (1 = 1) 


7.8.1 一 般 说 明 与 记号 

对 大 多 数 总 体 , 初级 单元 的 大 小 不 一 定 相 等 .此 时 有 两 种 处 理 方法 : 
第 一 种 方法 是 将 单元 按 大 小 分 请 ， 使 同一 层 中 的 单元 大 小 祖 等 或 相差 不 
多 ， 从 而 可 用 7.23.6 段 的 方法 处 理 。 但 这 种 方法 也 有 局 时 性 ， 可 能 分 层 
后 同一 县 的 单元 大 小 相差 仍 较 大 , 不 能 作为 相等 看 待 ， 另 一 方面 , 在 一 些 
实际 问题 中 , 分 层 首先 必须 考 卡其 他 的 原则 和 因素 , 从 而 不 能 照顾 到 单元 
的 大 小 .第 二 种 处 理 方 法 正如 对 不 等 大 小 群 的 整 群 抽样 那样 ,对 初级 单 
元 作 不 等 概率 抽 禅 . 

重新 引进 这 一 节 及 以 后 所 用 的 记号 如 下 : 

了 表示 第 个 初级 单元 中 第 j 个 次 级 单元 的 观测 什 , 入 应 的 样本 区 
记 为 gir 

总 体 包含 六 个 初级 单元 , 第 一 阶 抽 样 的 详 本 量 为 x 

对 田 定 的 初级 单元 , 型 : 为 其 大 小 , 第 二 阶 抽样 的 样本 量 为 ms 








了 -总 YP, 一遍 yy 

P= FM, Wi— Ys/ Ts, 
8 

对 总 体 及 所 有 二 阶 样本 : 

Mo~ 襄 M，。 mw- 高 所 包含 的 次 级 单元 数 ， 
P- 襄 Y, y- 避 ww 总 和 
了 -了 /Mo， 9-9/ 容 ms， 按 次 级 单元 平均 
PY/N, 了 -om 按 初级 单元 平均 : 


在 本 节 中 ,我 们 首先 考虑 nw 一 1 的 特殊 情形 ， 即 在 总 体 中 只 抽取 一 个 
初级 单元 ， 假 定 被 扫 中 的 初级 单元 为 各 第 二 奏折 样 是 从 其 中 对 |, 个 次 级 
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单元 中 按 简 单 随机 抽样 抽取 mm 个 次 级 单元 为 方便 起 见 , 我 们 主要 考 寻 
对 了 的 估计 . 为 简便 起见 , 有 时 我 们 将 初级 单元 简称 为 单元 . 


7.3.2 等 概率 抽取 初级 单元 
设 唯一 祥 本 单元 6 是 根据 等 概率 原则 随机 抽取 的 ， 风 可 以 考 堪 以 下 


两 种 信 计 方法 : 
一 、 方 法 工 
和 佑 计量 取 为 样本 平均 数 ， 
训 = 和 = 直 - 凡 ww (7 .80) 
BON- EBB) BF) HOP aD,. C7.31) 


G 


再 总 
逐 。 是 闻 的 不 加 权 平 均 ， 不 等 于 部 ~ 高 25FVao， 因 此 更 是 有 仿 


Vg Pel)] + B[Va(g)] 
-ro [名] 
og Fw 二 当局 (7.82) 
于 是 
MSIE( 了 0)- 名- 了 ?二 方 襄 了 7 二 总 CS 


人 .33) 
上 式 中 的 第 一 项 为 偏 信 的 平方 , 第 二 项 为 初级 单元 平均 数 了 ,之 闻 的 
差异 , 第 三 项 为 初级 单 序 内 次 级 单元 间 的 差异 ， 注 意 到 入 据 (7.33) 式 , ra 
的 选择 对 MSEC%o 的 前 两 项 无 关 ， 一般 采 用 以 下 两 种 方法 : 一 是 取 mu 一 
ma 为 常数 ; 二 是 取 vos 与 亚 , 成 比例 . 
二 、 方法 II 
佑 计量 取 为 : 


7 SM ~-_ NM,- 
sr -二 i Ys (7.34) 


其 中 政 = 用 /NW 是 (初级 ) 单元 的 平均 大 小 ， 
GD=2 仅 了 -M7 一 放 记 六 YP? 7.35) 


i 1 
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从 而 加 :是 区 偏 的 . _ 
VD ~ VBa(Bn)] + B[V eC)] 











一 玉 [ 爱 PF.] + 硬 ， [ 天 | 

i na 

- TR 流 G7 
“六 话 训 0 了) 六 (7.36》 


上 上 式 表明 , 当 以 i 为 估计 量 时 ， 初级 单元 的 关 愉 凡 广 关 的 作用 以 单 
元 总 和 了 (与 其 平均 数 立 ) 差 异 的 形式 出 现 .如 果 于 相差 较 大 , 而 了 , 禄 
对 比较 稳定 时 ,了 ; 的 差异 就 较 天 . 而 这 正 是 大 多 数 实际 总 体 的 情形 ， 因 
而 了 (gm) 常 比 M8 了 (3) 还 大 ， 因 此 虽然 rt 大 无 僵 的 ， 但 效果 一 般 并 不 


好 . 


7.3.3 不 等 概率 抽取 初级 单元 
设 唯 一 样本 单元 $ 是 按 一 定 概 率 共 总 棒 中 搬 取 的 ， 我 们 考虑 以 下 三 


种 方法 ， 
一 、 方 法 III 
抽样 是 按照 单元 大 小 MM, 成 正比 的 楼 率 , 也 即 按 ax。 的 概率 抽取 
的 (PPS 抽样 ), 估计 量 为 : 
gm ~ (7.37》 
六 
Ga) 一 7)- 襄 六 -7 (7.38) 
Qt 
Nm 


bitad 


VG) -VAPD)+E,| 
总 ) 
I MM 





fo Om 
li P24 Mm HR 
高 鸭 2C7 77 + 二 人 他] 

. (7.39) 


这 表明 rr 是 无 偏 的 , 而 当 每 个 单元 按 次 级 童 元 平均 差别 不 大 时 .。 方 
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差 一 般 也 不 会 很 大 . 











、 方法 IV 
搜 样 是 按 指定 的 一 组 楼 率 2, 抽取 的 ， 训 2- 1, 信 计 量 为 
5 和 (7.40) 
DG) -可 [着 了 |- 训 起 了 -了 C7.41) 


V (giv) =—Vi [Bagir)]+ Bi [Vayrr)] 
= 凑 也， MI M, — mu)8, 
Pa +B:| 和 ] 


-入 和 ji 有 + 让 BC) 


让 ERA + |. 











一 全 Zi 
(7.42) 
在 此 情况 ， 若 取 有 天 /Mo 网 iv= gu 车 取 和 如 :一 4/N, 则 Yr 一 Yu 
三 、 方法 
竹 样 是 按 指定 一 组 概率 Z, 抽取 的 ， 访 名 :二 1, 估计 量 为 : 
gr 一 ar (7.43) 
BCGm- 襄 ZF ,A Fs. (7.44) 


一 般 的 , 了 ;多 也 , 放 5v 是 有 偏 的 、 但 当 名 必 训 /Yo 时 , 偏 情 很 小 . 与 
(7.83) 式 类 位 , gv 的 均 方 误差 可 表示 为 : 


,MSECG)— (Fs —B)*+ ZF, Ps) + 如 A Ce 


my 
¢ (7.45) 
上 式 中 三 项 的 意义 也 与 (7.33) 式 相应 的 项 的 意义 相同 . 
例 ?.8 为 对 以 上 5 种 方法 进行 比较 ， 考 虑 对 以 下 一 个 人 为 总 体 (NW 
一 3) 进行 狂 样 (此 例 引 A Oochran(1977)). 











三 。 一 到 (@- 5+2.0+4.0)=2.167. 
。 按 方 法 了 ~ 方法 Y 的 抽样 与 估计 方法 拙 一 个 单元 的 主要 结果 列 于 表 


和 7?.4 二 阶 抽样 一 一 初级 单元 大 个 不 等 的 一 般 情 形 (a> 力 3215 
束 ?.3 N=3 初级 单元 不 等 大 小 的 一 个 人 为 首 体 





初级 单元 ss | MH | PP 太 有 
1 0,1 2 1 0.500 0 
2 1 2, 2, 4 8 0.667 2.0 
3 9, 3, 4, 4, 5) 下 6 24 0.800 至.0 








Mo 一 1 | 了 工 -33 1 


.7 了. 和 中， 其 中 方法 工 又 分 芭 or 一 3 与 动 wa= /3 两 种 情况 ， 其 余 几 种 
方法 , m; 尼 取 为 3， 方法 TI7 及 立 中 的 包 取 为 (0.9, 0.4 0.4) 是 ay 
0 (6 一 , 3, 3) 的 估计 . ' 
表 .4 wm 一 1 时 五 种 抽样 和 估计 方法 的 比较 
































雪耻 单 汇 的 摄 率 。 | 至 的 信 | 元 偏 | 根据 去 7.3 总 体 抽样 的 MS 
方 沪 | 计量 性 | ( 偏 简 )? | 单元 之 间 | 单元 内 | 总 计 
Io 却 ( 导 到 当 ) _ 0.840 | 2.056 | 0.144 | 2.541 
Im 到 (二 | | 的 | oaa0 | 2.066 | oass | 2.579 
区 广 仁 ， 到 瑟 本 无 偏 | 0 5-793 | 0.256 | 6.048 
I | 区 (10s3,0s0| | 天 人 |o 1.813 | 0.1g9 | 2.008 
工交 4 (0.2, 0.4 0.4) 你 区 无 雯 | o 3.583 | 0.213 | 3.796 
Vv Zs (0.2, 0.4 0.4 EE 有 有 偏 0.062 工 -800 0.173 | 2.035 

















从 表 7.4 的 最 后 一 列 MSIE 的 值 可 看 出 ， 方 法 I 购 效 果 最 差 ( 昌 然 
它 无 偏 》 方法 III 最 好 ， 方 法 IV 与 了 的 效果 取决 于 Z 的 选择 与 于/ 
ae 的 符合 程度 ， 方 法 TV 虽然 无 偏 , 但 MS 下 并 不 太 小 ， 上 壕 缚 论 昌 然 
是 对 一 个 具体 人 造 总 体 得 出 的 , 但 具有 普遍 意义 . 


§7.4 二 阶 抽样 一 一 初级 单元 大 小 不 等 
的 一 般 情形 (%>> 1 
初级 单元 大 小 不 等 的 一 般 情形 既是 上 节 nm 一 :情形 的 推广 , 也 是 第 6 


章 中 群 大 小 不 等 情形 的 整 群 抽样 (8 6.4) 的 发 展 ， 一 个 自然 而 基本 的 假 
定 是 第 二 阶 抽样 对 不 同 的 初级 单元 是 相互 独立 的 ， 我 们 暂且 假定 第 二 具 


218 第 了 7 章 二 阶 与 多 阶 抽 冬 
抽样 都 是 简单 随机 的 , 即 对 第 一 险 抽 样 中 被 抽 中 的 第 避 个 初级 单元 ,用 不 
放 园 等 概率 抽样 扫 取 mo 个 次 级 单元 , 并 令 


co 


不 过 后 面 这 个 假定 可 用 任意 一 种 其 他 抽样 代 符 ， 而 结果 没有 实质 性 的 变 
化 (除非 第 二 附 抽 样 是 整 群 抽样, 这 样 整个 抽样 是 单 阶 整 群 抽样 而 不 是 一 
般 意 义 的 二 阶 抽样 )， 因 此 , 在 这 一 节 中 仍 将 重点 放 在 初级 单元 的 抽取 方 
法 .为 表示 便利 起 见 , 我 们 改 以 总 体 总 和 了 为 估计 的 县 标 量 . 


7.4.1 按 多 项 抽样 抽取 初级 单元 


” 。 设 初 级 单元 是 按 多 项 抽样 抽取 的 ， 即 以 给 定 的 一 组 概率 和 ( 襄 2,~ 
才 ) 逐 个 放 回 独立 抽取 的 , 重复 次, 共 抽 得 ”个 (可 能 有 重复 ) 单 元 ， 落 有 
单元 被 重复 抽 中 一 次 以 上 , 则 原来 在 第 二 阶 抽 衬 中 被 拉 中 的 mu 个 次 级 单 
元 也 被 放 回 , 按 简 单 随机 抽样 重 抽 ma 个 次 级 单元 . 
仿照 第 6 章 中 的 处 理 方法 , 我 们 首先 对 了: 作出 估计 : 多 ,= Mg 然后 
用 Hansen-Hurwiiz 佑 计量 对 了 作出 估计 , 形式 如 下 ; 
?os- 二 训 于 工 高 并， (7.46) 











名 Wii 
与 定理 5.1 和 5.3 所 用 的 方法 类 似 , 由 于 在 此 情形 , 第 一 阶 抽样 可 看 
作 是 从 “总 体 ”{ 估 W/Z 《i 一 1 3, …, 站)} 中 独立 抽取 的 样本 量 为 nn 的 样 
本 .而 他 zz 是 样本 平均 数 , 因而 艰 sa 的 均值 等 于 该 "总 体 ”的 均值 了 了 , 从 
而 它 是 无 偏 的 ， 它 的 方差 为 “总 体 "方差 的 1/n, 即 
1 
VOPan) -EV 
其 中 天 条) 也 好“ 总 体 * 方 基色 是 一 工时 用 估计 基 多 /和 知 计 了 的 方 
差 ， 司 老 即 等 于 上 节 中 的 方法 TY 不 过 因为 这 里 讨论 的 目标 量 是 了 而 
不 是 立 的 估计 , 因此 
rv(F)-7 (EE) rs) MV On), 
于 是 根据 (7.42) 式 有 
ig (Fy 2 fo SE 
了 (人 wz) 一 于 售 &， (过 r) + 高 |. (7.47) 
如 有 果 不 指 定 第 二 阶 抽样 方法 , 刚 上 式 可 改写 成 更 一 般 的 形式 ， 
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Ps) -二 | 访 z(t 2]. 人 
而 户 ( 估 az) 的 信 计 可 直接 用 如 生前 冯 即 
Pa) cy Sf), 多 


它 是 矿 ( 全 zs) 的 一 个 无 偏 估 计 . 从 而 得 到 如 下 定理 
定理 了 .8 对 于 二 阶 抽样 ， 著 第 一 阶 抽样 按 放 回 的 多 项 抽样 抽 训 初 


级 单元 ， 每 次 第 5 个 单元 入 样 慨 率 为 所 ( 沁 2, 一 工 ), 了 ,是 第 二 阶 抽样 中 
对 第 个 初级 单元 总 和 了 :的 无 偏 估计 ,六 2《 艰 由 是 其 方差, 则 总 体 总 和 了 了 
的 一 个 无 偏 合计 为 : 





1 
?a 二 
它 的 方差 为 矿 ( 旬 sa) 二 工 CR ry 六 Ve Po], 
诉 v(Pae) = t i zy 训 ( 鱼 fas) 
是 矿 ( 乡 ma) 的 无 伪 估 计 。 


本 定理 也 可 直接 狼 二 阶 故 样 求 均值 前 一 般 公式 用 代数 方法 证 明 ， 伍 
推导 过 程 稍为 复杂 些 ， 我 们 仅 对 从 闻 sz) 的 无 偏 竹 加 以 证 明 如 下 ， 
事实 上 , 注意 到 全 jz 的 表达 式 以 及 召 s( 参 D) 一 了 了 则 有 


BIo(Pga)]— CC 1) 名 sz[( 7) 全 宫 六 吉 #7?) 


全- (Pr- 计 高二] 














a 1) 辣 a r 恕 ( 生 识 I a -7) 
+n(s LY:y + 了 Png 一 二 高 并 和 


2 


-6( 呈 -7) 售 敲 于 -7) 


十 2 了 (二 -P(E 王 ) 


E29 


一 2 (了 Pen- 土 高 于 :) 


i 各 
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全 放 如 YX ) 


+2( 鞋 祈 Ys -Yr)( ?mr 一 二 立 r) 


元 总 瑟 二 状 交 ) 


-2 一 本 二 误 于 


二 [加 A -7)] 

















+ 了 认 于 -7 了 + 了 信 训 于 -下 
re ) 
—2; 十 宫 开 -7) 


(Po 加 二 ) } 


< _ 工 [er Ey)] 
nn—l1 ep 


一 天 《将 访 于 ) BB 区 
-全 计 容 ( 于 二)] 


挟 度 z( 辽 -六 -二 襄 2 到- 了) 
J 革 襄 了 22] 


Ee bi 











-as rYy -1 EE - VOPas). 站 
因果 于 Ce) 人 机 更 显然 对 第 二 阶 抽 
样 方 关 分 量 二 次 -开光 于 的 一 个 无 信 估 计 是 : 
uguo- 击 避 2 C7.50) 
其 中 “0 是 了:( 季 的 一 个 无 储 估 计 。 于 是 对 第 一 阶 负 样 方差 分 重 
二 zr 的 人 天 信人 
po- Rey (六 gr 了 oz) 让 总 人生 2 (7 
玉 面 我 位 求全 sa 是 自 加 权 的 条 件 ， 注 意 到 外 er 可 才 万 | 以 下 形式 ; 
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7.4 二 阶 朱 
a 《7.59) 
nil SN jel 
因此 只 有 当 VCnermg) 篆 相等 , 为 一 常数 时 , 即 
M _ gl1. 7.69; 
Tes Te 到 po 《 ” 
时 ,有 Poa= 区 襄 芒 ys 


此 时 个 计量 是 自 加 权 的 , 这 时 fe 是 总 体 中 任意 一 个 次 级 单元 被 抽 中 的 模 
率 , 也 即 总 的 指 样 比 ， 在 实际 应 用 中 , 若 fo 事先 确定 , 则 


Po 人- C7.54) 
可 按 已 被 抽 中 的 初级 单元 确定 . 
对 自 加 权 样 本 , 估计 量 的 方差 估计 也 有 以 下 东单 的 形式 : 
Ey 7.5 
2 全 aa) 本 加 一 分 《7.55) 
共 中 y= By 5 二 为 w. 


对 每 个 训 若 令 乞 一- , 即 基 对 初级 单元 进行 PP8 抽样 , 则 估计 量 
可 简化 为: 





Pepe -2 加. (7.56) 
车 进而 m 一 mm, 则 样本 是 自 加 权 的 , 此 时 
他 res 一 Moy, (7.57) 
其 中 
9 二 写 训 ww (7.58) 
它 也 是 罗 的 无 偏 估计 ， vf) 的 一 个 无 入 估 计 为 ， 
v(Prprs)— me 1 祝 ( PP. (7.59) 





在 这 一 节 中 我 们 考虑 的 第 一 阶 抽样 是 放 回 抽 祥 . 为 保持 其 独立 性 , 前 
商 规 定 当 一 个 初级 单元 被 重复 抽 中 时 ， 前 一 次 在 第 二 阶 抽样 中 被 抽 到 的 
mr 个 次 级 单元 应 放 回 重负， 在 实际 执行 中 ,这样 做 是 不 方便 的 ， 也 没有 
此 必要 .有 以 下 两 种 变通 齐 法 可 殿 选 用 . 设 第 于 个 初级 单元 被 搬 中 性 次 ， 
第 一 种 方法 是 用 简单 随机 抽样 在 该 单元 中 一 次 抽取 mm 《假定 oh< 4》 
个 次 级 单元 ; 第 二 种 方法 是 只 在 该 单元 中 一 次 抽 mx 个 次 级 单元 ， 两 种 方 
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法 的 信 计 量 曾 到 以 下 形式 
亡 tM /RZ 
此 时 , 按 第 一 各 方法， 实际 方 关东 标准 的 (7.4 式 ) 减 小 ， 可 以 证 明 减 
少 的 量 为 = 高 MS8 而 掖 什 二 种 方法 ， 实 际 方差 比 标准 的 要 大 , 增 


ya) 
加 是 为 部 襄 一 Re 


7.4.2 不 放 回 抽样 时 的 一 般 结果 

本 段 讨论 当初 级 单元 是 按照 某 逢 方式 不 放 回 抽样 时 ， 二 忠 抽 样 的 
信和 计量 、 估 计量 的 方差 及 其 箔 计 的 一 般 结果 ， 主 要 给 出 两 个 定理 (定理 
7?.4 与 7.5)， 这 两 个 定理 是 由 Durbin (1953) 首先 提出 的 ， 后 经 Des 
Raj (1966),，J. N. 区. Rao (1975) 等 推广 发 展 的 。 这 里 报 述 的 结果 
与 证 明 是 根据 Des BRaj 的 形式 ， 而 定理 了.5 的 推论 则 是 根据 Bao 的 结 
果 .， 报 据 这 两 个 定理 ， 可 以 方便 地 将 单 阶 抽样 的 结果 移植 到 二 阶 甚 至 多 
阶 抽 祥 中 - 

我 们 考虑 的 基本 假定 是 ， 初 级 单元 是 按照 某 种 方式 从 总 体 中 不 放 回 
地 扫 取 的 .对 单元 6 全, 是 了 了 , 的 无 偏 信 计 ,64 一 vo( 依 ) 是 o% 一 了 VsC 允 1) 
的 无 偏 佑 计 ， 此 外, 对 不 同 的 志 第 二 阶 抽样 是 相互 独立 的 . 

考虑 了 的 以 下 线性 信 计 : 

了 一 六 we 《7.60) 
这 里 的 wo 既 依 腑 于 被 抽 中 的 单元 2 也 可 能 依赖 于 祥 本 中 的 其 他 单元 ， 
引进 随机 变量 ， 


地 fw 若 间 元 4 入 机 .ey) 


0， 否则， 
BW 
Pr. (7.62) 
定理 了 .有 在 上 述 假 定 和 记号 下 ， 
Pw 
是 无 偏 的 充 要 条 件 为 ， 
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吾 ,(24,)=1， 对 所 有 的 07.69》 
此 时 
六 ( 人 = 太 [ 宫 wp 入 (总 oo)+ 识 Boo2)o8 (7.64) 
证 明 | | 
BOP) = BBs( Sp) Bs (er) -BY,. 
因此 ,如 (全 )= 襄 了 :一 了 的 充 要 条 件 是 : 对 所 有 的 汪 都 有 如 :Cwis) 一 1 
VP) -VLBA P+ BtVaP)] 
-VV (wer) + [Bp | 
-V7 (Br) + os. 
定理 了 .5 车 二 次 型 
we 了 -高 on 了 i+2 高 高 mY 了 7 (7.65) 
是 靖 ( 密 wis 了 的 一 个 无 仿 估 计 , 则 
0( 训 w)= 寅 oT2 高 襄 B 了 全 + 襄 wind。 7.66》 
是 亚 ( 台 一 六 ( 辣 几 人 的 无 偏 估计 . 


证 明 令 
Gh 车 单元 多 入 样 ， 
” 【0， 否则 . 
a -| 6a， 党 单 元 5 于 都 入 样 ; 
【0， 否则 . 


7 (Sr) -7 (Sr) 
一 训 7PV Co +3 加 入 For(ol wh 
(高 Wi Y,) -= (位 Whar ) 
-高 oi.7 了 ?+2 高 Yur. 
根据 定理 的 条 忻 ， 
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至 [党 wj] = 度 wz] 。 


因此 
六 ?GTIta 广 名 Br, 
=- 襄 FGo)Y4ta 访 加 cov Cw wi) YP. 
有 而 必 有 有 Bai) =V Ch), 
E [rf 】] 


N NW ON NW 
-卫视 P43 铅 加 U9 ] + [ 训 wiss ] 
So [Sy 
-也 六 co? oD)]+28, [高 襄 57.7 
十 召 . [Bw oO ] 
1 Fs Ld 
x 和 
“~ 训 s73+2 训 访 VnY,Y,] 
= Sl jt 
zz 
+ + BCwi) lo 《7.67) 


六 为 Bi (es) = VC0h), 
1= Bi (ws) = [Ei Cos)], 


故 五 [人 ( 宫 wg)]= 了 (入 wory)+ 六 可 co 
-V7 (Bt) -7 
推论 “在 定理 了 .5 的 条 件 下 
" 襄 w?)- 襄 P+2 宙 名 CD A NC 
(7.68) 
也 是 玉 ( 估 ) 一 本 ( 襄 w 人 六) 的 无 偏 估计 . 


证 明 ”对 of( 宫 ww ) 取 均值 根据 (7.67) 式 有 
El (Buf) B [Sa r+a 宫 zoFZ,] 


总 
+ E(w) oY 
石 


号 7.4 二 阶 抽样 一 一 初级 单元 大 小 不 等 的 一 般 情形 (n>>1) 223 
。 x 
-5 (Bo) + Ew og 
Sl Hel 
-7 (wf) VP). 


而 且 这 里 可 以 免 许 o& 依赖 于 样本 中 的 其 他 单元 , 即 可 记 成 2 

定理 了 .4 给 出 了 作为 线性 估计 《7.60) 是 无 偏 的 条 件 ， 而 这 个 条 性 是 
很 容易 验证 的 。 该 定理 同时 给 出 了 这 种 估计 的 方差 表达 式 ， 而 利用 定 
理 7.5 及 其 推论 容易 构造 方差 的 无 仿 估计 ， 规 则 是 在 第 一 阶 抽样 


六 ( 澡 wi 了, ) 的 某 个 无 偏 估计 (是 一 个 一 次 型 ) 公 式 中 用 了 代 赫 了 ,， 再 


加 上 一 个 有 关 第 二 阶 抽样 的 附加 项 总 ws68 或 加 (oo 一 au)98 即 可 . 其 


中 后 应 是 Fe( 全 ) = co 的 无 偏 估计， 
我 们 在 以 下 两 段 中 详细 说 明 这 两 个 定理 的 应 用 。 


7.4.3 按 简 单 随机 抽样 抽取 初级 单元 
若 第 一 阶 抽 样 是 按 简 单 随机 抽样 抽取 的 ， 此 时 第 二 阶 抽样 通常 也 是 
控 简 单 随 栅 拍 样 拟 联 ， 考 虑 简单 线性 估计 : 





了 .一 六 高 MB 名 襄 ?。 (7.69) 
此 时 
wu 一 二 (7 .70), 
因为 加 (ww) 一 佑 才 一 1 
村 以 Bw =B(E) = G1 2, ,HN), 


放 根 据 定理 了.4, 依 。 是 无 偏 的 , 旦 
如 起 DN 
PPO -PR 闪 7)+ 训 并 
NO) EFT) WE MN 
2 下 一 工 + 下 它 25 “ 
(9.2 





其 中 Le 
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为 导 求 六 (多,) 的 一 个 无 偏 估 计 , 我 们 注意 到 若 令 
了 .一 三 高 PY,, 


1 吧 2 的 一 
刚 二 六 (7 一 了 是 万 二 入 一 到 ”的 一 个 无 依 估 计 ， 又 吕 一 


十 芒 Gowv 一 和 ?是 88- -再 二 于 六 (wo 一 了? 的 一 个 无 仿 信 计 ， 因 


9 一 荆 抱 


此 根据 定理 了 .5, 知 














-An Pea at) 吕 
“9, 2 一 哆 一 十 十 名 辫 a 
(7.72) 
是 矿 (全 .的 一 个 无 偏 估计 , 式 中 
多 -二 加 多 . (7.73)》 
车 将 (7.69) 式 中 的 参 。 本 
外 .一 二 py 玄 ma yo 
则 容易 看 出 , 当 
疡 -下 一 户 《7 .84 


为 常数 时 , 全 。 着 肖 加 权 的 . 
简单 估计 全 。 虽然 是 无 偏 的 , 但 效果 一 般 不 好 , 方差 较 大 ， 此 时 我 们 
还 可 考虑 比 估计 .例如 对 大 小 到; 的 比 合计 形式 为 : 





守 My 2 
Pa M, 吾 Ma MD,. (7.75) 
加 a 避 at 


由 于 它 不 是 线性 估计，. 故 不 能 应 用 定理 7. 和 与 了 -5， 而 且 它 是 有 偏 
的 ， 伍 根据 与 定理 4.1 类 似 的 思路 , 可 以 证 明 它 的 一 个 近似 方差 估计 为 : 





EL 3 
ra MIG Bs ye me 
oo- 人 辣 人 a 


nl Toe 
(7.76) 


7.4.4 按 不 放 回 不 等 概率 抽取 初级 单元 


设 初级 单元 是 按 不 放 回 不 等 概率 抽取 的 , mt.mrs 是 包含 概率 ， 则 此 时 
总 体 总 和 卫 的 二 阶 估计 可 采用 以 下 形式 的 Horvitz-Thonmpson 估计 : 
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Pe- 入- 二 Gm 
去 ， 甘 单元 6 入 梯 ， 

此 时 et 天 则 

对 国定 的 名 Ew) = ml, 
Bi (eh) = me 襄 - 走 : 

赤字 mr 是 无 偏 的 , 且 


Van- 了 | 高居]+ 襄 服 . 
. 报 据 定理 5.3, 当 m 固 定时 。 
Vr 含 于 ]~ 襄 总 Crem — ef) (Cs 一 Zr) 


:因此 (车 不 限定 第 二 阶 抽样 形式 ) 
Va) 一 高 总 om 一 am (BE-E) + 高 吕 . (7.78) 


be 


.由 于 在 单 阶 抽样 中 ， Tates Gramey gen 估计 量 
ores 一 匀 总 zt loki ere (Ps 


EE 名 EE 





是 (7.78) 式 前 一 项 的 无 偏 估计 ， 站 此 若 68 是 o& 的 无 偏 估 计 , 根据 定理 
7.5, 按 (7.66) 式 ， 
o(Pom = 家 以 (二 高 名 Cr 


1 3s 2 


是 玉 ( 随 gs) 的 一 个 无 偏 估 计 ， 而 按 定理 7.5 a 
wi 人 po 一遍 访 3 





EE 2 -过 
+ 吝 3 WNT Ee )( 甸 + 学 ) (7.80》 
Ed 5 


也 是 玉 ( 了 pr) 的 一 个 天 入 信 计 、 了 有 (7 0 直到 G7.80) 不 很 明显 ， 
下 而 我 们 进行 直接 验 证 . 


太守 (二 ] 


一 盏 ,| 本 和 mm 一 za 到 [ 工 (¥ -i) ， ( 兰 _ 工 


二 Badd [2 Te Ws 
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人 





EZ 
人 
He 
- 识 名 (em) Ey 
+ (和 + 各 


-PCPoo -入 时 + 生 训 人 -+ 


了 > 人 Ts 


一 矿 (他 rm) 一 至 ba 娩 一 六 总 ee (名 + 各)]. 








I ma 石 个 EE 
所 以 
p22 PD, PH CS 
产 | Eo (元 =) + 襄 me 2 ER { 人 oY) 
是 了 ar 的 无 偏 估计 ， 注 意 到 
SI 7.81 
人 -1 汪 ) 《7 


故 w( 闻 er) 是 全 zz 的 无 偏 佑 计 . 

作为 例子 ， 下 画 列 出 第 一 阶 抽样 分 别 按 Brewer-Durbin、Yates- 
Grondy 与 Rao-Hartley-Cochran 方法 的 二 阶 全 计量 及 相应 的 无 偏方 
差 佑 计 . 

1) Brewer 或 Durbin 方法 











p= 大 + 名- 3 Miyr 0) (7.82) 
*, Zz 
一 Co se 十 3 入 . 
v(Pp) = EE 为 全， (7.83》 
= 一 _ wma ef SB: , O82 
ea) 一 全 ey 0 儿 竺 + 等 ) 
{7.84) 


其 中 本 一 26， 而 mas 基 由 (好 .30) 式 给 出 的 . 
2) "一 3 时 的 Yates-Grandy 逐个 抽取 法 , 用 Murthy 生计 量 


Pu [ta) Fa}, rs) 


2—%:—%2 
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va) = (1—21) (1— 2) 2 加 例 } + 高 十 立 2 Lz 














(Sg, vo) mm 
7.86) 
, Qed) Cie) (1 mt) Py 
(Pn) 三 EE 好 2) 
(a) (Ts) (te) 0 5 
(3—21— ga)? (本 二 ) 
(ee) (7.87》 
1 


3) Rao-Hartley-Cochran 抽样 及 估计 量 





fo- 乌 柬 世 ， (7.88) 
3—N » 
人 (全 ao) 一 -2 一 2 (多 -Po ) 十 写 1 2; sie, 
NW 如 
= (7.89) 
一 人 a 
(人 aaa) 一 -到 一 到 了 oae) 
3 pa be gy 
-{G 2 综 + [总 总 2 和 | 为 2 93 
{7.90) 


$7.5 三 阶 及 多 阶 抽 样 


7.5.1 各 级 单元 大 小 相等 时 的 三 阶 抽样 


前 几 节 都 是 对 二 阶 抽 祥 情形 讨论 的 、 用 交 似 方法 可 以 将 这 些 结果 推 


广 到 三 阶 或 更 高 阶 的 抽样 . 例如 在 各 级 单元 大 小 都 相等 情况 的 三 阶 抽样 
有 类 似 87.32 节 的 结果 . 





设 总 导 中 食 有 立 个 一 级 单元 , 每 个 包含 个 二 级 单元 , 而 每 个 二 级 


单元 又 包含 吾 个 三 级 单元 、 设 三 阶 抽 样 的 各 阶 赃 本 量 分 别 为 由 om 与 名 ， 
我 们 引进 以 下 记号 ; 


了 sm 为 第 了 个 一 级 单元 ， 第 了 个 二 级 单元 ， 第 苹 个 三 级 单元 的 观测 


值 :yue 为 相应 的 样本 值 ， 
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2 
KR ~ 下 人 
了 os 一 去 翌 了 mw， i 
工 总 1 
Pe 
宛 。 1 加 和 Ey 9 各 
一 万 五 尽 训 社 习 开 w 3 击 总 产 妆 
二 n , 
-+ Ge 


1 大 洛 Fa 
Ce ee 
ce pe 
2 1 SS FN 
Si wy 立 2 TY) 
1 SS 了 ys 
= TRACE > > 
在 此 情形 ,有 如下 定理 : 
定理 7?.6 若 在 三 阶 抽样 中 , 每 阶 抽样 都 是 简单 随机 的 , 由 








1 
(BD) -YF, (7.91y 
3) 
VO St tl Sa+ if ss. (7.92》 
其 中 户口 ， 一 加 所 = 诗 . 
3) 
(及 一 1 区 Qf) s2+ fffs) 和 (7.93》 
是 矿 ( 鸭 的 无 偏 估计 - 


本 定理 的 证 明 完 全 类 似 于 定理 7.1 与 定理 7.2 的 证 明 . 这 里 从 略 - 
在 证 明 (7.93) 过 程 中 可 得 到 : 





aq lf go 工 一 Fa ge ， 
BsD— SI+ pe Sa mh SE, (7.94) 
HO) — SE EL 68, C7.95) 
BP)— SE. (7.96)， 


出 此 可 知 , 给 是 53 的 无 偏 估计 , 而 中. 号 不 是 583 与 8 的 无 偏 估计 
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得 根据 上 面 的 表达 式 , 不 难 构造 它们 的 丈 偏 估计 . 
从 定理 7.6 可 知 , 在 三 阶 抽 冬 中 , -一般 而 言 ， 第 一 阶 抽 样 的 方差 是 最 
主要 的 , 第 二 阶 抽样 的 方差 次 之 , 第 三 阶 抽样 的 方差 已 相当 小 ， 通常 可 和 忽 
正 不 计 ， 这 个 规律 也 适用 于 更 高 阶 的 抽样 , 事实 上 ,对 于 高 阶 抽样 , 一般 


侈 需 计 算 衣 两 阶 抽 群 的 方差 即 可 
车 狂 样 的 总 费用 函数 具有 以 于 简单 的 线性 形式 ， 
OO= coemt canm-F carvmk, (7.97) 


丙 太 om 的 让 优生 (全 方 到 散人 出 
, -SE 
fopt™— ya EE rr Ye SY ¥ “(7.98) 
祖 据 以 上 公式 的 结构 ， 不 六 得 屿 更 高 了 立国 大 全 公式、 
3.5.2 多 阶 抽样 中 不 等 概率 抽样 的 应 用 
对 于 一 般 情 形 的 多 阶 抽 梯 , 即 各 级 单元 大 小 不 等 的 情形 , 普遍 采用 不 
等 概率 抽样, 因为 它 不 仅 效率 高 (方差 小 ), 而 且 若 各 阶 抽样 的 概率 选择 得 
合理 , 还 可 以 大 大 简化 计算 ， 仍 以 三 只 抽样 为 例 , 有 如 下 定理 ， 
定理 9.7 在 三 阶 抽样 中 , 设 每 一 阶 抽样 都 是 按 多 项 抽 祥 抽取 的 ,各 
阶 样 本 量 分 别 为 由 mm 为 抽样 概率 分 别 为 ZZ Zn (名 Z1 一 1 六 2 
1 Cg. oly Dy Ns 1 9 0; My Wl, Be, Eu), 
记 vow 为 样本 现 测 值 , 则 总 体 息 各 了 了 的 以 下 舍 计 且 
参 一 -i 二 交工 总 im i 训 P (7.99) 


nm FY si FL Wi HL Hj 












































是 无 偏 的 , 且 
(人 -全 艺 人 ) 吉 训 天 总 于 7) 
TF 入 遍 周 襄 信 到 YE)]， (100) 
而 
v(P) ~ Ce Ty 高 (P.-L a 万 元 之 订 辐 人 友 -了 2] .40 


下) 的， 人 和 用 全 中 0 


Miu Me) 
se 产 ; 去 二 名 EA i 二 多 ™. 
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证 明 反复 应 用 证 明定 理 5.1 的 方法 与 结论 以 及 (7.3) 与 (7.4) 式 。 
即 有 
EH(P)= EBB (P) 


-Bs, {ili 二 1 太吉 名 yue )] 








ni 罗 It 区 1 Zijw 
1 r 
1 了 } 
人 纪 妈 访 天才] 
~ 包 伍 # 训 于 }- 了 
一 


VP)—T HBP) + EV BA) i Eyre(D), 
VB BP?)-Vs [高 于 :| 








[1 
了) 一 主 六 下 
1 Ls 
了 VB 了 ) 一 吉 恕 [ 襄 汪 二 7 让 |} 
全 宫 言 六 人 总 7) 


国 1 | 2 
= 二 总 志 们 至 7 
可 BV) 一下 人 训 二 -二 [ 吕 


本 fl 人 


-人 a -了 


加 1 从 1 (X4 Yiu 3 
i BE 位 襄 三 目下 完 Bs 党 Vise 2) 


1 1 1 Pie 
去 仙境 3 一 2) 
因而 (7.100) 式 成 立 ， 为 证 时 (7.101) 式 ， 我 们 需 注意 到 第 一 阶 抽样 是 放 
辕 的 , 表 名 个 无 储 司 计量 
i111 如 1/1lie i 
-二 三 训 
是 相互 独立 的 ， 号 具有 相同 方 交办 而 


zy | 


是 分 , 的 平均 数 作 一 关 视 全, 的 方差 OD) 的 -个 天 信人 I 


推论 在 三 阶 抽样 中 , 车 前 两 阶 抽样 都 是 PPS 抽样 ， 最 后 一 附 是 按 
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等 概率 抽取 的 , 又 各 阶 样本 量 对 不 同音 元 都 等 于 常数 , 则 所 得 前 样本 是 自 
加 权 的 . 
事实 上 , 此 时 有 
M; Es 1 
一 Ho Gu 一 瑟 ， ry 
其 中 Mo= 启 ad -名 总 下 ,是 总 体 中 所 有 三 级 单元 的 总 数 ， 根 据 定理 


1 1 


7 了 .7, 此 时 总 体 总 和 了 的 估计 可 写成 





Fou 一 





人 = A 高 襄 训 wna Mg. (7.102) 
其 中 
Wt Cg 


是 样本 观测 性 按 三 级 音 元 的 简单 平均 数 ， 此 时 方差 估计 也 有 极 简单 的 形 
式 : 


2 一 RE 2- 宫 9- 殉 ?. C7.104) 


其 中 
eb C=1, 2,., %). (7.105) 


mE Fl 
若 最 后 一 阶 抽 样 是 (不 放 回 ) 简 单 随机 抽 样 , 则 上 述 结论 仍 然 成 立 , 不 
过 此 时 更 论 方差 广 ( 依 ) 比 第 三 阶 抽样 是 有 放 回 等 概率 抽样 小 
从 上 面前 讨论 不 难得 到 更 高 阶 抽样 的 一 般 处 理 方法 ， 如 果 在 多 阶 抽 
畔 中 ， 前 见 阶 都 是 按 有 小 回 前 PPS 抽样, 最 后 一 阶 为 等 概率 抽样 , 那么 所 
得 的 样本 是 自 加 权 的 , 信 计 量 及 其 方差 估计 都 有 简单 的 形式 。 


第 8 章 


系统 抽样 


38.1 一 般 描 述 


8.1.1 定义 及 实施 方法 


定义 8.1 设 总 体 中 的 个 单元 按 一 定 硕 序 《随机 的 或 按 某 种 规律 
排列 ), 编号 为 1, 多 ，…， 交 ,采取 如 下 方法 从 总 体 中 抽取 一 个 样本 量 为 史 
的 祥 本 : 先 抽 了 一 个 或 一 组 随机 数字 作为 超 始 单元 的 编号 ， 然 后 按 一 个 
确定 芍 规则 抽取 其 他 单元 ,这 种 抽样 称 为 未 统 轴 样 (systematic 














sampling). 


系统 抽样 中 一 种 最 简单 的 方法 是 在 抽取 起 始 单 元 的 编号 后 ， 按 一 确 
定 间距 45 为 最 接近 于 入 /rs 的 整数 )， 逐 个 抽取 样本 单元 ， 这 种 系统 接 
样 了 世 称 汶 竺 距 拍 样 。 潜 中 五 称 为 抽样 间距 (sampling interval), 具体 地 
说 ， 先 在 1 至 上 之 间 随 机 地 抽取 一 个 整数 6， 以 它 作 为 起 始 单 元 的 编号 ， 
则 整个 样本 是 由 以 下 编号 的 单元 组 成 的 . 
it-DE C=1,2,.,n). 








1 
图 8.1 图形 系统 抽样 示意 图 


由 于 六 不 一 定 是 上 的 整数 信 , 所 以 按 
上 述 方法 得 到 的 系统 样本 的 样本 量 可 次 
诺 ] 吉 应 ]+x， 为 了 迄 免 这 种 样本 量 不 
能 确定 的 情况 ，Lahiri (1952) 提出 如 下 
称 为 回 形 系统 抽样 的 方法 ， 将 本 个 总 人 
单元 排列 成 一 个 加 ,首尾 相 搂 。 从 工 到 万 
中 揣 取 一 个 随机 整数 作为 初始 单元 ， 欣 
后 每 间隔 二 抽 下 一 个 单元 (% 仍 为 最 接近 














对方 /nw 的 整数 ), 直至 抽 足 % 个 单元 为 止 ， 按 此 方法 , 可 以 保证 样本 量 % 


588.1 一般 描述 233 

不 变 . 不 过 此 时 首尾 两 个 样本 单元 的 间隔 可 能 小 于 也 可 能 大 于 名 ， 例 
如 图 8.1 中 ,太一 工 , & 一 3, mn 一 4, 6 一 4， 首尾 两 个 样本 单元 的 间隔 是 3. 

估 上 述 的 实施 方法 可 以 看 出 , 在 系统 抽样 过 程 中 , 一旦 起 始 单元 确定 
了 ,整个 样本 就 完全 独 定 了 , 这 是 系统 抽 祥 有 别 于 其 他 抽样 的 一 个 特点 , 

另外 , 我 们 注意 到 , 当 站 一 邮 时 ， 在 上 述 两 种 实施 方法 中 ,无 论 按 电 
一 种 方法 ， 总 体 中 每 个 单元 的 入 样 狗 率 都 相等 ， 从 而 是 一 种 等 福 率 抽样 。 
当 交 =#o 时 ， 按 第 一 种 方法 每 一 个 单元 的 入 样 枝 率 依赖 于 初始 值 ?、 对 
不 局 的 名 稍 有 不 同 。 以 下 为 了 处 理 方便 ， 我 们 假定 闵 总 是 % 的 整数 信 . 
在 实际 问题 中 , 若 % 比较 大 , 例如 n>50, 就 可 以 不 考虑 术 /n 不 是 整数 所 
带 来 的 问题 . 

除了 上 述 两 种 最 简单 的 系统 抽样 , 即 等 中 抽样 外 , 还 有 几 种 其 他 类 型 
的 系统 抽样 ， 包 含 不 等 概率 系统 抽 祥 ， 将 分 别 在 $8.4 与 $8.5 中 作 介 
绍 - 


8.1.2 系统 抽样 与 整 群 抽样 各 分 层 抽样 的 关系 

系统 抽样 可 以 看 成 是 一 种 特殊 的 整 群 抽样 ， 也 可 以 看 成 是 一 种 分 层 
抽样 ， 为 了 看 清 其 中 的 关系 ,我 们 以 一 般 的 等 距 抽样 为 例 ， 将 总 体 中 的 
太 《 一 nD 个 单元 按 上 个 一 组 排列 成 家 8.1 形式 , 共有 站 行列 ， 并 以 行 、 
列 号 将 单元 进行 重新 编号 . 





表 8.1 系统 抽样 首 体 单元 按 群 ( 行 )、 屋 人 列 ) 的 排列 











Bal 


列 平 TF Ps 








每 一 个 系统 样本 都 是 由 才 8.1 中 的 一 行 单元 所 组 成 的 ， 如 果 将 每 一 
行 单元 看 作为 一 个 群 (大 小 为 )， 则 总 体 由 避 个 群 组 成 。 由 于 初始 单元 
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《即行 号 ) 是 随机 抽取 的 ， 因 此 这 种 系统 抽样 可 以 看 成 是 对 群 进行 随机 抽 
样 的 整 群 抽 样 、， 为 了 以 后 能 直接 采用 整 群 抽 大 的 基 些 结果 ， 麦 8.2 列 出 
了 系统 抽样 与 整 群 抽 料 参数 间 的 对 照 、 


甫 8.2 系统 抽样 与 整 群 拍 祥 落 于 参数 对 照 表 


系 统 抽样 x 名 k 1 





整 群 抽样 NM 亚 


另 一 方面 , 车 将 表 8.1 中 的 列 看 成 为 层 , 则 每 个 系统 样本 都 包 食 每 层 
中 的 一 个 单元 ， 因 此 系统 抽样 也 是 一 种 分 层 朱 样 . 不 过 由 于 样本 单元 在 
层 中 的 位 置 都 是 一 样 的 , 因此 它 不 是 分 层 随 机 抽样， 


8.1.3 系统 抽 祥 的 优 缺点 


系统 抽样 是 实际 中 最 常用 鸥 抽样 方法 之 一 ， 这 是 因为 它 有 突出 的 优 
点 : 首先 系统 抽样 简单 易 行 , 容易 确定 样本 单元 、。 它 避免 了 一 般 概 率 抽 样 
欧 诸 多 麻烦 ,其 至 在 菜 些 场合 不 需要 抽样 框 ， 它 所 需要 的 只 是 总 体 单元 
的 排列 顺序 、 便 如 车 要 对 公路 旁 的 树木 进行 病虫害 调查 , 确定 每 20 哥 树 
检查 一 棵 , 只 要 在 初始 被 检 树 确定 后 , 每 隔 20 棵 检查 一 棵 即行 , 根本 不 需 
要 在 事先 对 公路 旁 的 所 有 树木 进行 编号 .另外 一 些 情况 更 为 简单 ， 例 如 
为 对 茶 城 市 的 机 动车 辆 进行 调查 , 确定 抽样 比 为 1%%, 则 可 在 00~99 中 随 
机 抽取 一 个 整数 , 不 妨 设 是 43, 则 只 要 车 辆 牌照 号 末 两 位 为 23 的 都 进行 
调查 即 可 .系统 抽样 的 第 二 个 优点 是 祥 本 单元 在 总 体 中 分 布 比 较 均 匀 , 因 
此 在 通常 情形 , 系统 样本 一 般 具 有 对 总 体 的 较 好 代表 性 , 这 也 是 它 受到 实 
际 工作 者 欢迎 的 一 个 重要 原因 .最 后 我 们 还 应 指出 ， 和 如果 抽 祥 者 对 总 栖 
结构 (主要 是 指 单元 指标 与 排列 闫 序 的 关系 ) 膀 多 的 了 解 并 加 以 正确 利 
天 的 话 , 系统 抽样 可 以 大 大 提高 糖度 . 

不 过 系统 捕 样 也 有 其 突出 的 缺点 ， 如 果 摘 样 者 侧 乏 经 验 ， 对 于 某 些 
总 体 ， 例 如 单元 指标 随 着 排列 顺序 旦 周期 性 变化 的 情形 , 处 理 不 好 , 系统 
抽样 的 效果 就 会 大 大 降低 ， 另 外 由 于 许多 在 实际 中 表明 是 行 之 有 效 的 系 
统 抽样 常常 不 是 严格 的 概率 抽样 , 因此 系统 抽样 的 方差 估计 较为 困难 . 
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§8.2 等 概率 系统 抽样 (等 距 抽样 ) 

本 节 首 先 讨 论 景 简单 的 系统 抽样 , 即 等 虑 抽样 时 总 体 均 信 了 的 估计 
问题 ， 为 讨论 方便 起 见 , 仍 假 定 玉 一 nz, 在 此 情形 ， 抽 样 是 一 种 严格 的 概 
率 抽样 . 

8.2.1 人 入 计 量 


按 玫 8.1 的 记 叶 * 设 初始 单元 编号 为 全 则 总 体 均值 了 的 估计 量 取 为 
系统 样本 的 均值 


和 -了 -< 二 为 了 wo- (8.1) 
由 于 可 能 样本 只 有 大 个 , 因此 
妃 (jw) -王宫 了 -去 沪 训 YY. (8.2) 


因而 估计 量 是 无 偏 的 . 
和 如果 术 不 是 % 或 的 整数 局 ， 则 不 述 估计 量 是 有 偏 的 ， 不 过 当 mw 比 


较 大 时 , 其 全 伴 不 会 很 大 . 
8.23.23 估计 量 的 方差 一 用 祥 本 ( 群 ) 内 方差 表示 
估计 量 ger 的 方差 有 几 种 不 同 揭 表 达 形 式 。 第 一 种 形式 是 用 系统 样 


本 也 即 群 内 方差 55。, 来 表示 . 
定理 8.1 系统 抽样 估计 量 gr 的 方差 可 表达 为 ， 


VD) ~ sey. C8.8) 





其 中 如 为 总 体 方差 , 又 
1 
bee P,.) (8.4) 

是 系统 样本 ( 群 ) 内 方差. 

征明 将 总 体 平方 和 按 表 8.1 中 的 行 (也 即 全 部 可 能 的 系统 样本 ,或 
称 为 群 ) 进 行 分 解 

(DBS-n 高 (7 一)?+ 襄 Cr 

另 一 方面, 根据 定义 ,有 
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VO) — BCs) FP)s, 
至此 VOD Sh 
从 本 定理 的 结果 可 知 ， 系 统 样本 内 的 方差 依 大 ， 则 估计 量 的 方差 全 
小 ,车 获 (8.3) 式 与 科 单 贿 宙 抽 寿 的 方 整 公式 (简单 估计 情形 ) 作 比较 ， 立 
即 可 得 到 系统 抽样 比 简单 随机 抽样 更 为 精确 的 条 件 是 : 
Sey >>. (8.5) 
因此 为 了 提高 标 统 拍 祥 的 精度 ， 只 要 有 可 能 ， 将 总 体 单元 重新 排列 ， 
尽 可 能 增 大 样本 内 的 方差 , 即 可 达到 旨 的 . 


8.2.3 信 计 量 的 方差 一 一 用 样本 ( 群 ) 具 相关 表示 


完全 等 价 的 ， 系统 抽样 佑 计量 的 方差 也 可 用 系统 样本 ( 群 ) 内 相关 
Pmey 来 表示 . 
定理 8.2 系统 抽样 估计 量 5 的 方差 可 淡 达 为 ， 
VG) = ( EFL) nlpws]. 8.6) 
其 中 
pos EF uy-P) Feu-P) 
me BLY -YP) 


2 
DY?) (8.7) 


是 系统 样本 ( 群 ) 内 相关 . 
证 明 考虑 到 系统 抽样 是 一 种 特殊 的 整 群 抽样 { 且 群 的 大 小 都 相 
等 ), 所 以 可 直接 利用 整 群 抽样 的 结果 ， 根 据 定理 6.1, 按 (6.14) 式 , 有 


7 多 一 二 这 y+ MDed]. 


其 中 记号 按 标 准 整 群 抽样 的 形式 ， 由 于 所 考虑 的 系统 抽样 是 一 种 特殊 的 
整 群 抽样 , 其 参数 与 标准 的 玛 群 抽样 有 如 卖 3.2 的 对 应 关系 , 因此 有 
VG) -Mr Dpe]. 
从 定理 8.2 可 知 , 系统 祥 本 ( 嫩 ) 内 相关 愈 大 , 也 即 系统 样本 ( 群 ) 内 音 
元 愈 相似 , 差别 愈 小 , 出 估计 量 的 方差 愈 大 , 这 个 结论 与 定理 8.1 的 结论 


是 一 至 的 . 
前 而 讨论 的 是 系统 抽样 估计 量 的 理论 方差 , 由 于 我 们 在 抽样 时 , 实际 
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扫 到 的 只 是 一 个 系统 样本 ， 因 此 要 给 出 六 (gy) 的 无 偏 信 计 是 不 可 能 的 . 
在 8 8.6 中 我 们 专门 来 讨论 方差 估计 问题 . 
8.2.4 数值 例子 


设 有 一 个 站- 35 的 人 为 总 栖 ， 按 表 8.1 的 形式 排 威 5 行 6 列 ， 如 表 
8.8 的 左上 部 分 ， 对 该 总 体 抽 取 m 一 5 的 一 个 祥 本 ， 我 们 来 研究 不 同 抽样 
方法 的 效果 ， 


表 8.8 一 个 六 = 中 的 人 为 总 体 及 其 方差 分 解 

















~ 
BW 1 2 3 4 5 行 方 差 
行 人 
工 12 19 25 28 28 47,3 
加 24 28 29 33 36 21.5 
3 18 20 35 39 39 78.3 
4 26 34 40 48 44 ?74.8 
5 | 29 29 上 6 52 50 128.7 
列 方差 46.2 30.5 70-7 100.5 68.8 Bae103.86 
根据 吉 8.3, 有 ; 
总 体 方差 
S57— 103.86, 
行 (内 ) 平 均 方差 
一 直 《47.8+21.5+ 128.7) 一 70.19, 
烈 (内 ) 平 均 方 差 


2— (46.9+90.5+.…+08.8) 一 63.34. 


我 们 来 比较 几 种 不 同 的 抽 祥 方法 ， 每 种 乞 均 为 所 .计算 每 种 抽样 人 
计量 9 的 方差， 
1) 简单 瑚 机 抽样 


Va So- x 108.86—16.6176, 
33) 以 行为 群 (系统 样本 7 的 整 群 抽样 或 系统 抽样 
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Vd 8 Ll Se 43.6096. 


8) 以 列 为 群 (系统 样本 ) 的 整 群 抽样 或 系统 抽样 
_ Ni gs_ kn—l) ea 
Ves= 8 KL 8 =49.0936. 


和 及 行为 层 的 分 层 随 机 抽样 (每 层 抽 工 个 单元 ) 
Te 一 E11.2198. 


届 以 列 为 层 的 分 层 随机 抽样 (每 层 抽 个 单元 ) 


Vo LL B210.1344. 


从 上 述 结果 可 以 看 到 ， 由 于 (平均 ) 行 方差 与 列 方 差 均 小 于 总 体 方差 
S?, 因此 本 例 中 的 系统 抽样 的 效果 不 及 简单 随机 抽 祥 。 茎 于 对 分 时 随机 
抽 祥 , 正如 对 料 的 那样 , 效果 不 仅 优 于 系统 抽 峰 , 也 优 于 简单 随机 抽样 . 

为 了 看 出 总 体 单元 不 间 排 列 对 系统 抽样 的 影响 ， 我 们 将 总 体 单元 重 
新 排列 表 8.4 是 将 单元 按 从 小 到 大 前 顺序 逐 列 排列 ， 而 表 8.5 是 按 某 
种 随机 化 程序 将 单元 随机 排列 分别 观察 以 行为 系统 样本 的 系统 护 祥 . 
下 8 有 和 表 8.3 总 体 按 大 小 闫 序 重 新 排列 及 其 方差 分 解 














12 26 29 36 44 143.8 


18 28 29 36 46 107.8 


1 

2 

3 19 28 30 88 a8 33.7 
4 24 28 383 38 50 103.7 
5 


25 29 34 40 52 111.5 





烈 方差 27.3 1.2 5 3.5 10.0 BS2~—103.86 








根据 表 8.4, 平均 行 (内 ) 方 佐 为 了 417.7, 故 系统 抽样 方差 为 : 


34 Bx 和 1. 
Vry 本 193.86 一 35 X17=5.5456. 


而 按 简单 陵 机 抽样 的 方差 了 as 仍 为 6.6176， 可 见 此 时 系统 抽 祥 的 效果 
优 于 简单 随 袖 抽样 . 实际 上 ， 将 总 体 单元 按 大 小 顺序 排列 的 目的 就 是 为 
了 了 增 大 系统 样本 内 方差 , 从 而 必然 提高 精度 。 
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表 8.5 是 将 总 体 单元 按 随机 置换 重新 排列 而 成 ， 平 均 行 内 方差 为 
1402.06, 平均 烈 内 方差 为 102.38, 均 接近 于 总 体 方差 ， 因 此 无 论 以 行 还 是 
以 烈 为 系统 祥 本 的 系统 抽样 的 方差 都 接近 简单 随机 抽样 的 方差, 


天 8.5 表 8.3 总 体 按 随 机 硕 序 重 新 排列 及 其 方差 分 解 








31.8 











I27.3 
102.2 
152.8 


96.7 















S3108.86 


8$8.3 方差 与 总 体 单 元 排列 顺序 的 关系 


从 上 节 结 果 可 以 看 出 , 系统 抽样 的 精度 下 仅 与 总 体 方差 有 关 , 也 与 样 
本 ( 群 ) 内 方差 有 关 ， 而 这 里 的 “ 群 * 完 全 是 以 单元 的 排列 顺序 确定 药 ， 因 
些 系统 朱 样 的 精度 与 总 体 单元 的 排列 顺序 有 密切 关系 .本 节 详 细 讨 论 它 
们 之 间 的 关系 , 分 三 种 典型 情况 . 


8.3.1 随机 排列 


在 许多 情况 下 ， 采 用 系统 抽样 主要 是 因为 抽样 方便 . 此 时 单元 的 排 
烈 多 曼 自然 的 顺序 ， 与 其 指标 值 无 任何 祖 关 关系 ， 这 种 排列 称 为 随机 徘 
列 , 也 称 按 (与 指标 值 无 关 标 识 排列 ， 典 型 前 例 子 是 当 灰 幸 单 元 为 人 时 ， 
人 人 员 的 排列 是 按 姓 氏 笔划 (或 字母 ) 顺 序 排列 鸥 情况。， 当 抽样 单元 为 各 级 
行政 单位 时 ， 按 其 地 扯 码 排列 或 在 其 他 单元 情况 按 目 录 顺 序 排列 等 情形 
均 可 视 为 随机 排列 . 

正如 8.2.4 眉 中 的 数值 例子 表明 的 那样 , 当 单 元 排列 为 随机 时 , 系统 
抽样 与 简单 随机 狂 祥 有 大 致 相同 的 效果 , 也 即 从 某 种 意义 而 言 , 两 者 的 方 
差 是 相等 的 。 不 过 我 们 注意 到 ， 系 统 抽 样 的 方差 在 很 大 程度 上 依 炽 于 单 


240 第 3 章 系统 抽样 

元 的 不 同 排列 , 而 简单 随机 抽样 对 于 固定 的 总 体 , 方差 是 不 变 的 。 因 此 这 
里 所 说 的 菜 种 意义 是 就 平均 意义 而 言 的 、 而 这 里 的“ 平均” 又 有 两 种 解 
释 - 

第 一 种 解释 是 将 总 笨 看 作 是 铝 定 的 ， 正 如 闭 今 为 下 我 们 所 一 直 理 解 
的 那样 , 它 由 丸 个 确定 的 单元 {了 1, 了 s,…, 了 x} 组 成 ， 这 站 个 单元 有 
浆 ! 种 不 同和 的 排列 , 而 每 一 种 排列 对 应 于 一 个 按 此 作 系 统 抽样 的 方差 , 所 
亩 平均 系 指 这 叉 ! 个 方差 的 平均 值 . 

定理 8.3 对 固定 的 有 限 总 体 {Fi ,了 2, …,， 了 w}， 以 ns 表示 从 中 
抽取 样本 量 为 的 简单 随 向 样本 佑 计量 的 方差 ， 以 下 oy 表示 对 某 个 确定 
的 单元 排列 进行 系统 抽样 佑 计量 〈 祥 本 量 皆 为 n) 的 方差 ， 则 全 部 尺 ! 种 
单元 不 同 排列 的 Vas 的 均值 吾 (F ss) 满足 


加 (Ves) ~ Va (8.8》 

证 明 对 每 一 个 确定 的 单元 顺序 ， 仍 按 表 8.1 的 形式 排 成 X 行 % 烈 

CW zm) 章 形式 , 其 单元 拱 标 值 记 为 了 ww 风 
Fu- 天 宫 了 了) 去 避 束 -P- 

其 中 了 -去 交 了 sw- 车 将 对 所 有 单元 全 部 W! 种 不 同 的 排列 求 和 记 为 
总 对 到 汤 四 个 总 体 单元 了 ,的 求 和 沁 为 总 ,对 取 泥 林 个 总 休 单元 中 任 
意 两 个 音 元 了 。、 了。 的 任何 排列 求 和 记 为 ” 宇 “(为 避免 记号 过 于 尝 狼 起 
见 , 在 后 两 种 情形 , 总 体 单元 均 只 用 一 个 下 标 ), 由 
wm- 广电 [ 寺 家 到 一 7 





























N! 加 
= 1 La 时 g 
万 08 ba + 及 Yra]—Y" 
1 re 
一 Nii 产 鸭 衬 节 + 避 这 or 一 到 








Fi 启 汶 (7 -3 宣 天 + 加 Cr-9 本 rr]- 史 
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-[ 霹 re TO 7 一 号 





一 N—n a Nn 3 
Win SY 


N—n 1 到 > 
一 
N— 2 
-Vn 
第 二 种 解释 是 将 总 体 看 作 是 从 一 个 无 限 的 超 总 体 (super-popnla- 
村 on) 中 随机 抽取 的 一 个 桩 本 量 为 让 的 样本 . “平均 " 则 是 指 按 该 超 总 体 


的 概率 分 布 取 的 期 望 什 , 以 了 表示 之 . 
定理 6.4 车 Yulu 一 1, 3 …， 交 ) 是 从 基 超 总 体 中 随机 抽取 的 
区 (了 一 As 


























0, ; 
OFF {os 圳 2 G8.9) 
如 
GV es) ~ SV m0). (8.40) 
证 明 对 固定 的 有 限 总 栖 
_N-n, 1 ， 
了 oa 一 这 Wr es ED 
-NP 
故 
EV mn) 一 户 ecer。 一 凡 ) 一 交加 ( 丈 一 总 )2 
Ne RR sj 
工 吉 。 
一 [这 ca-weE 伟 名 
N—n So 
一 | 
Sa 名 a 
另 一 方面 - 


(P=6 [EF.-P)] 


-和 二 2 区 人 2 一 AP 一 5 


第 38 章 系统 抽样 








242 
-5 祷 访 96- 必 ] -六 届时 
于 [ 去 名 - 末 训 中 
= 





于 是 GV)-S Ta). 四 


8.3.3 线性 趋势 

若 总 体 单元 是 按 其 指标 值 的 大 小 头 序 排 列 或 按 某 个 与 其 月 线性 相关 
萌 辅 助 变量 多 的 大 小 顺序 排列 ， 此 时 了 4s 与 编号 % 也 线性 相关 ， 此 种 情 
提 称 为 线性 趋势 排列 ， 也 称 了 , 按 有 关 标 识 排 列 。 正如 已 在 8.2.4 段 数 
值 例子 中 该 述 的 那样 ， 对 接线 性 趋势 排列 的 总 体 进行 系统 抽样 能 较 大 程 


旗 地 提高 抽样 精度 , 原因 是 它 增 天 了 样本 内 方差 ， 
本 自我 们 将 对 线性 趋势 情形 进行 初步 的 定性 说 明 ， 所 考虑 的 模型 具 


有 以 下 简单 的 形式 : 
: Ya Bu (8.11) 
或 
re Tuo 
You. (8.12) 


以 下 仍 用 了 4 记 工 人 
定理 8.5 对 于 线性 趋势 寞 型 六 .一 w(w 一 4, 2,…, 让) 有 





























Ve<Vy < Vs. (383.18) 
证 明 ”利用 恒等式 
襄 w- 寺 WCN+1), 
已 如 一 二 NON+1) (N+1) 
可 求 得 总 体 的 方差 为 
_1 
Ss NN+L), (8.14) 
从 而 wy 1 
有 ma 一 Ne 全 一 ND). (8.15) 


按 分 层 上 随机 抽 祥 ， 计 算 层 内 方差 号 的 公式 与 计算 8 的 公式 形式 完 
全 相同 , 只 须 用 大 找 埠 交 即 可 , 故 


寺 8.3 方差 与 总 休 单 元 排列 顺序 的 关系 4 





8 一 - 吝 CEADT ， 《8.16》 
因此 根据 比例 分 配 分 层 随机 抽样 的 方差 公式 , 有 
Nn ga 1 a 
Ve (8.17) 


对 于 系统 抽样 , 在 此 情形 , 由 于 有 个 不 同样 本 的 样本 均值 了:. 依次 都 
相差 1 因而 再 次 应 用 (8.144) 式 , 得 
1 Sp pl 
开启 了) 一 襄 b+D), 


所 以 


1 声 sl na ， 
Vo- 天安?) (8.18) 


比较 (8.15)、(8.17) 与 (8.18) 式 即 有 
VV EV ms, 
而 县 等 号 当 且 仅 当 w= 时 成 立 . 外 
在 实际 问题 中 , 上 述 模型 不 可 能 严格 成 立 , 但 其 结论 在 定性 上 还 是 适 
用 的 . 在 下 一 节 中 将 专门 讨论 线性 趋势 排列 情形 . 


8.3.3 单元 指标 旦 周期 性 变化 的 情形 

在 另外 一 些 问 题 中 ， 总 体 单元 指标 了 。 用 周期 性 变化 ， 例如 城市 街 
道上 的 交通 流量 以 34 小 时 为 周期 相继 出 现 高 峰 与 低谷 ; 商店 的 悄 售 额 每 
周 、 每 月 以 至 每 个 季度 都 有 周期 性 变化 ， 当 了 随 着 % 呈 周期 变化 时 , 系 
统 抽样 的 效果 , 即 六 sy 的 大 小 与 抽 畔 癌 距 天 的 选取 有 极 大 的 关系 . 

假设 了 Ys 的 变化 以 2 为 周期 , 则 当 大 为 于 的 整数 倍 时 ， 祥 本 单元 都 取 
同一 数值 ， 此 时 系统 样本 的 代表 性 最 差 ， 方差 最 大 ， 若 取 k=1~1 或 
Zl1, 则 样本 单元 包 食 一 个 变化 周期 内 许多 有 氏 表 性 的 数值 , 从 而 使 方差 
大 大 减 小 ,因而 精度 较 高 ， 因 此 ， 当 了 了 。 呈 周 期 性 变化 时 ， 必 须根 据 实 奈 
情况 慎重 地 选择 X。 而 这 取决 于 抽样 工作 者 对 总 体 的 了 解 和 自身 的 经 
验 . 














8.3.4 单元 指标 旦 自 相 关 的 情形 

在 有 些 情形 ， 特 别 是 总 体 单 元 的 排列 是 按 空 间 位 置 或 时 间 顺 序 排列 
时 , 总 体 指标 值 了, 之 间 存 在 一 定 的 相关 关系 ， 而 且 是 正 相关 关系 ， 距离 
相近 单元 的 相关 远大, 时 离 较 远 的 单元 相关 较 小 ， 具 体 地 说 , 相关 系数 是 
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单元 奖 距 wx 的 递减 函数 ， 下 面 我 们 假定 总 体 单元 了 x1， 了 s,…，Yw 是 从 
一 个 游 足 以 下 条 件 的 超 总 体 中 抽取 的 随机 样本 
GFTD=p, EAP) 0 EPI) Psise— pH) = po’. 
《8.19》 
其 中 ps 又 满足 ps 关 po>z0( 对 w<og). 这 个 模型 即 是 一 种 自 相 关 {(autooor- 
Felated) 模型 .对 于 自 相 关 总 体 , 系统 抽样 有 可 能 优 于 分 层 随 机 抽样 ， 事 
实 上 , Ooshran (1946) 证 明了 如 下 的 结果 ( 仍 设 如 一 ri): 
定理 8.6 对 于 自 相关 总 体 (8.19), 若 又 有 
58 一 pora 十 Po- 一 2po>>0 (um2, 3,., bn—D, 





《8.30) 
珊 
EGP) SP EPP me), (8.21) 
上 式 左 端的 等 号 仅 在 癌 = 0《w 一 2, 3,…, kn 一 9) 时 才 成 立 ， 
. 证 明 我们 仅 须 证 明 (Vsy) < 其 中 
FV es) = EE (Ys —P). 
对 于 分 层 样本 , 每 蝴 中 的 样本 单元 有 万 个 可能 的 (相对 ) 位 置 , 从 而 任 
意 两 层 的 入 样 单元 在 层 中 的 位 置 共 有 配种 可 能 的 组 合 、 可 能 的 想 离 为 
1 2 名 一 1， 名， 记 十 1，… ,2k 一 2, 2k 一 1; 而 每 种 距离 可 能 的 位 置 组 合 
数 分 别 为 二 23, -…, 一 1, 区 五 于 2, 1、 因而 Vw 的 期 望 值 可 以 写 
成 : 





EVO— 妈 国 wa+pe+poe- 寺 MI]， 





而 ZV) -部 [各 w(2+ 900 + hl+ pn)]. 


由 于 (8.30) 式 , 故 有 
EVD -HTD [pet pes—2p2)] >0. 
而 等 号 仅 当 对 每 个 4 po 十 Pay- 一 3px 一 路 0 对 才 成 立 . 目 
Qunenerilli(le49) 证 明了 (8.19) 中 的 前 两 个 假定 可 放宽 至 
ETI SF pt. 
不 少 作者 提出 了 在 实际 问题 中 可 用 的 ps 的 形式 ， 例 如 将 
Pu 一 tanh(u 号 
用 来 描述 相距 为 u 的 两 个 气象 台 的 降雨 量 的 相关 ;ps e- 用 于 农林 圭 
起 调查 , ps= Co)7 用 千 某 些 类 型 的 时 间 序 列 等 
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$8.4 具有 线性 趋势 的 总 体 的 估计 量 
与 抽样 方法 的 改进 


上 节 已 独 出 当 总 体 单元 的 排列 具有 线性 趋势 时 ， 等 虹 的 系统 抽样 其 
有 较 高 的 精度 ， 出 于 这 种 排 列 的 系统 样本 内 方差 增 大 ， 效 估计 基 前 方差 、 
小 于 简单 随机 抽样 的 方差 . 但 是 与 按 大 小 为 层 的 分 展 随 机 抽样 比较 , 它 
的 方差 仍 稍 高 。 这 是 因为 系统 抽样 仅 是 一 种 样本 单元 的 位 置 完 全 固定 的 
分 层 抽 样 ， 若 初始 单元 的 值 在 层 内 偏 小 或 售 大 , 则 整个 样本 , 从 而 估计 量 
的 值 也 偏 小 或 丹 大 , 这 就 增 大 了 估计 量 的 方差 ， 而 在 分 层 随机 抽样 中 , 由 : 
于 样本 单元 在 层 内 的 位 署 是 随机 的 ， 因 此 个 计 量 的 方差 较 小 . 受 此 启发 ， 
我 们 可 以 对 系统 抽样 的 估计 量 以 至 它 的 抽样 方法 作 适 当 的 政 进 ， 以 进 一 
步 扣 高 其 精度 . 实际 表明 使 用 这 些 方法 , 有 可 能 使 系统 抽样 达到 比分 层 
随机 抽样 更 高 的 精度 事实 上 ， 以 下 介绍 的 大 多 数 方 法 对 于 遵从 严格 而 
简单 的 线性 趋势 模型 (8.11) 的 总 体 可 完全 消除 其 线性 趋势 的 影响 ， 即 使 
方差 碱 少 到 0 的 理想 情形 . ， 























8.4.1 首尾 校正 法 
Yates(1948)》 首先 对 下 一 oz 的 情形 提出 在 计算 估计 量 即 样本 均值 
时 ， 采 用 加 权 平 均 ， 对 首尾 两 个 样本 单元 赋 以 与 其 他 单元 不 同 的 权 .， 设 


初始 半 元 的 编号 为 4 则 样本 中 所 有 中 间 单 元 的 权 ty 仍 为 二 人 j 一 2，…， 
% 一 了 ,而 首尾 两 个 单元 的 权 分 别 取 淤 ; 











L261 1 kl 
a (8.22) 

经 过 上 述 修正 后 , 在 模 蛮 (8.11) 时 , 对 任何 宇都 有 
和 -加 wo-Z. 《8.23) 


对 于 六 六 的 情形 ，Bellbhouse 与 Bae(1975) 也 提出 了 类 似 的 修 
正 . 假定 按 Lehiri 的 圆 形 系统 抽样 法 手 取 样本 ， 按 总 体 单 元 原 有 排列 顺 
序 确 定 首尾 两 个 样本 单元 (不 是 指 抽样 过 程 中 的 顺序 ). 车 抽样 时 初始 单 
元 的 编号 6 较 小 ,满足 1+ Cn 一 1)k&, 此 时 所 有 个 样本 单元 都 不 越过 
单元 好, 则 对 首尾 两 个 样本 单元 赋予 以 下 的 权 ， 
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ww 二 二 2 十 (mn 一 De N+ D, 


2n—I)k 


1 +n—i)Lk— (N+1) 
Wa 2tn—1)k 


洲 5 Cn 一 1)%> 驴 ， 则 必 有 取 到 的 样本 单元 越过 单元 全， 设 越过 单 


元 立 的 样本 单元 数 为 na, 则 相应 的 权 取 为 : 
th Nt) an N/n 
Ww 二 二 BN EY 


1 25+(n—1)k— (N+ii) nN /nr 
Wm BN 


其 他 所 有 中 间 单 元 的 权 仍 为 二 


(8.24) 








(8.25) 


8.4.2 中 位 样本 法 
Madow(1953) 提 出 为 消除 系统 抽样 中 初始 单元 位 置 的 影响 ,固定 取 
层 内 处 于 中 间 位 置 的 样本 点 , 也 即 令 
TCH1)/3， 车 名 为 朋 数 ; 
或 名 +1， 着 大 为 个 数 . 
就 一 次 调查 而 育 ， 中 位 样本 法 的 北 果 较 好 ， 但 缺点 是 ， 按 照 这 种 广 
法 ， 样 本 不 再 是 随机 的 了 总体 单元 排列 顺序 一 且 确 定 ， 样 本 也 就 确定 
了 ， 因 此 对 同样 问题 进行 多 次 定时 调查 时 , 这 种 拍 样 会 带 来 不 利 的 影响 ， 


8.4.3 对 称 ( 平 衡 ) 系统 抽样 法 

另 一 种 政 进 方法 的 思想 是 初始 单元 不 是 一 个 , 而 是 两 个 , 位 置 对 称 ， 
数值 大 小 相抵 ， 从 弄 减 小 估计 量 揭 方差 . 这 种 方法 通称 为 对 称 系 统 扫 样 
或 重奖 系统 抽样 (balanced systematic sampling). 只 体 方法 有 两 种 . 
我 们 首先 都 假定 站 一 中 ， 且 为 偶数 。 第 一 种 方法 是 由 Sethi(1965) 最 
先 狂 出 ， 后 经 Mnrthy(1967) 总 结 的 方法 ， 将 总 体 分 为 w3 层 ， 每 层 
包 合 2 个 单元 ， 在 每 层 中 随机 确定 与 两 端 等 距 的 两 个 单元 作为 样本 单 
元 , 每 层 中 的 样本 单元 位 置 一 致 .具体 地 说 , 当 起 始 随 机 数 为 5T<i<z)， 


和 对 样本 单元 的 入 样 号 殉 为 : 


[ET 27k, 2Cj4 1b c+ (j=0, 1 2 …, 委 一 1)。 (8.26) 
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2 3 一 2) CT) 二 
tia kil 
一 一 一 一 一 








24 一 ?十 1 2 十 中 yr 
图 93.3 层 内 对 称 系 统 抽样 
这 种 抽 祥 可 用 图 8.2 表示 .由 于 样本 单元 在 扇 内 的 位 置 是 对 称 的 
因此 , 我 们 称 这 种 对 称 系统 抽样 为 技 内 对 称 系 统 抽 样 . 
Singh 等 (1968) 对 上 述 方 法 作 了 和 修正， 提出 另 一 种 对 称 系 统 抽 榨 
法 , 仍 设 % 为 偶数 ， 当 确定 一 个 [1, 如 之 间 的 随机 整数 5 后 ，n/32 对 样本 
单元 由 以 下 确定 ; 
[s+ jk, NWN—j—jb 十 了 (=0, 1, 2, ……, 汪 - 切 、 (8.27) 
每 对 样本 单元 在 总 体 中 的 位 置 都 是 对 称 的 , 因此 , 我 们 将 这 种 方法 称 为 总 - 
体 对 称 条 统 抽 样 ， 如 图 8.3 所 示 . 


下 2 3k [i 3 


一 一 一 一 一 一 一 一 一 一 一 
(2 Oil 
nl il 
下 a 
图 8.8 总 体 对 称 系统 抽样 

车 nm 为 奇数 ， 则 样本 单元 总 有 一 个 是 不 成 对 的 ， 这 个 单元 通常 取 为 
总 体 中 的 中 间 位 置 ， 即 在 层 内 对 称 系统 抽样 中 ， 从 总 体 排列 的 两 端 起 分 
层 , 最 后 留 下 中 间 的 “ 半 层 ”, 在 这 半 层 (包含 个 单元 ) 中 随机 地 抽取 一 个 
单元 ， 或 干 胞 就 取 中 间 位 置 的 单元 作为 样本 单元 ， 在 总 体 对 称 系统 手 样 
的 情形 也 作 同 样 处 理 ， 在 匀 下 的 疡 个 总 眉 单元 中 随机 地 或 抽取 中 间 位 置 


的 单元 作为 样本 单元 . 


8.4.4 ”回归 估计 量 的 应 用 

从 理论 上 说 ，Yates 的 首尾 修正 法 及 Seihi 与 Singh 等 提出 的 两 种 
对 称 系统 抽 久 对 于 完全 线性 趋势 又 不 存在 随机 误差 的 模型 (8.11)， 都 能 
完全 消除 其 线性 影响 (假定 站 一 %E， 且 史 为 偶数 的 情形 ， 若 不 然 ， 则 稍 存 
误差 )。 但 在 实际 应 用 中 最 常见 的 线性 趋势 模型 是 带 随 机 误差 的 ， 因 此 
一 般 的 线性 趋势 模型 是 将 总 体 单元 了 (b=1, 2, …, 好 ) 看 成 是 从 以 下 元 


总 体 中 独到 的 随机 样本 : 
P= pta—atBRte. 《8.28) 


其 中 G8)— 0, 
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_ 只， 车 计 记 
em- 人 鞭 了 {8.29) 
式 中 互 ; 是 茶 个 辅助 变量 ， 更 一 般 的 , 我 们 可 以 定义 二 次 趋势 模型 等 , 对 
于 这 类 模型 我 们 可 以 应 用 第 4 章 讨 论 过 的 回归 估计 ， 对 于 所 得 的 系统 样 
本 , 不 用 样本 平均 数 的 简单 估计 , 而 用 (例如 ) 线 性 回归 以 计 : 


BF Dw BT -FE), (8.30) 
更 一 般 的 , 如 果 J(') 是 一 个 已 知 函 数 , 则 可 定义 以 下 估计 : . 
全 -5 到 2 (8.81) 
机 以 证 明 对 于 线性 赵 扫 模型 (8.28)， 
FEB(Yi— py pe 辫 )2. (8.32) 


因此 , 在 期 望 均 方 误差 (对 于 无 信人 讨 ， 即 是 期 望 方差 ) 的 标准 下 ， 系统 样 
本 的 回归 和 售 计 比 通常 的 简单 箔 计 的 精度 要 高 ， 
38.4.5 工 总 人 数 的 佑 计 

为 估计 某 部 门 当 年 的 职工 总 人 数 开 ， 将 该 部 门 各 单位 按 上 一 年 职工 
统计 人 数 对, 从 小 到 大 的 顺序 排列 , 按 等 上 距 铀 样 的 首尾 校正 法 ， 两 种 对 称 
系统 抽样 法 以 及 对 后 两 种 方法 所 得 样本 的 线性 回归 估计 比较 其 方差 ， 为 
莘 明 起 见 , 我 们 仅 对 一 个 子 总 体 ( 丈 = 32) 按 n 一 8, 五 一 和 作 模拟 朱 样 ， 原 
苔 数据 如 表 8.6 所 示 . 








表 8.6 某 部 门 各 单位 工 一 年 职工 人 数 开 : 与 当年 职工 人 数 了 4 



























单位 编号 到 
1 45 199 206 
2 48 210 218 
3 59 222 243 
入 68 7d 20 245 248 
日 76 78 2 268 263 
6 107 22 291 301 
了 97 115 23 324 326 
£ 102 123 24 350 358 
全 114 111 25 382 395 
30 T13 130 26 394 402 
11 127 135 27 416 429 
了 2 140 142 28 423 435 
13 144 148 4 458 A467 
14 168 252 20 473 499 
35 174 183 31 510 532 
246 2396 200 32 562 579 
ee 
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为 方便 起 见 ， 我 们 将 估计 的 总 体 参 数 取 为 均值 了 .根据 表 8.6 中 的 
数据 ， 了 一 242.59375, S52 一 24011.217， 叉 里 一 238.96875, 了 ,对 工 , 的 
《总 体 ) 回 归 系 数 6B= 工 .031068， 

对 每 种 方法 ， 可 能 的 系统 样本 都 为 4 个 ， 我 们 计算 其 均值 及 均 方 误 
差 的 平方 根 . 后 者 计算 公式 为 

MMSE V4 SOP):. 

一 、 一 般 系统 抽样 (等 中 抽样 ) 

4 个 可 能 样本 所 包 售 的 单元 号 以 及 估计 量 列 于 下 8.7 中 , 其 中 估计 量 
又 分 未 经 校正 的 通常 简单 佑 计量 gr 及 已 经 Yates 的 首尾 校正 后 的 估计 
量 gr。 从 表 中 可 见 , 8r 是 无 偏 的 , 而 3 是 有 偏 的 , 但 后 者 的 ME 要 
比 前 者 小 得 多 。 

表 8.7 表 8.6 总 体 等 距 抽 样 的 全 部 可 能 榜 本 及 其 估计 量 


















yay 






Bey 


样本 所 包含 的 单元 顺序 号 









236.94643 
240.39286 


1, 5, 9, 13, 17, 21, 25, 29 214.500 
233.375 






2, 6, 10, 14, 18, 22, 26, 30 





245.30357 
242.82143 


253.625 


263.875 






3, 7, 11, 15, 19, 23, 27, 31 
4 8 12, 16, 20, 24, 28, 32 





小 













241.86807 






LA 242.59375 
















VS 20.97407 3.32156 





二 、 层 内 对 称 系 统 抽 衬 

4 个 可 能 样本 所 包含 的 单元 号 以 及 条 音信 计量 gr 与 线性 回归 估计 
量 9 列 于 表 8.8 中 . 栈 种 估计 量 都 是 无 偏 的 ( 回 轨 佑 计量 中 所 用 的 及 是 
总 体 值 而 非 样 本 合计 管 )， 但 显然 回归 售 计量 的 标准 差 比 简单 估计 的 标 
准 差 小 得 多 . 虽然 按 这 种 抽样 方法 的 简单 信 计 本 身 又 比 一 般 系 统 抽样 的 
前 单个 计 的 精度 要 高 . 

三 、 总 体 对 称 (修正 ) 系统 抽样 

和 个 可 能 样本 所 包含 的 单元 号 以 及 简单 估计 是 jy 与 线性 回归 估计 
量 gor 列 于 表 8.9 中 ， 从 者 中 的 数据 可 见 ， 这 种 抽样 方法 的 效果 与 层 内 对 
称 系统 抽样 相差 不 多 ， 
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表 88 家 8.6 总 体 按 层 内 对 称 系统 抽样 的 全 部 可 能 样本 的 简单 估计 与 回归 估计 











样 太 序 号 样本 所 包含 的 单元 项 序号 ar Brr 
1 1, 8, 9, 16, 17, 24, 25, 32 252.500 242.513 
2 2) 7, 10, 15, 18, 23, 26, 31 244,500 244.085 
3 3, 6, 11, 14, 19, 22, 27, 30 241.500 245.552 
4 二 5, 12, 13, 20, 21, 28, 89 281.875 238.225 
杏 从 242.59375 242.59875 
MF 7.37996 2.74170 


一 一 一 一 一 一 -一 
表 8.9 表 8.6 的 总 体 按 总 体 对 称 系统 抽样 的 金 部 可 能 样本 的 简单 估计 与 回归 估计 
一 




















样本 序号 料 本 所 包含 的 单元 蜂 序 号 Vey hr 
1 1, 5, 9, 13, 20, 24, 28 32 250.625 239.489 
2 2, 6, 10, 14, 19, 23 27, 31 246.125 249.796 
3 3, 7, 11, 15, 18; 22, 26, 30 239 .875 245.842 
4 ds 3, 192, 16, 17, 21, 25, 29 233.750 241.248 
百合 2429.59375 242.59875 
~ YG) 6.37523 | 2.42111 


一 -上 1 

从 本 例 中 我 们 可 以 看 到 , 对 于 按 辖 助 变量 大 小 顺序 排列 的 总 体 (可 用 
线性 趋势 或 二 次 趋势 模型 近似 ) 用 对 称 系统 抽样 的 效果 显然 优 于 一 般 的 
等 距 抽样 .而 两 种 对 称 系 统 抽样 与 经 Yates 首尾 校正 梁 之 疗 的 优 劣 不 可 
一 概 而 论 , 它 主要 取决 于 总 体 结 构 。 特 别 是 了 , 与 也 ,的 相关 固 度 以 及 邢 ， 
的 内 部 结构 , 而 回归 佑 计量 的 效果 正如 预期 的 那样 , 一 般 更 好 一 些 , 不 过 
它 是 以 付出 更 多 的 计算 量 为 代价 的 . 




















$8.5 不 等 概率 系统 抽样 


8.5.1 概述 及 实施 方法 
不 等 概率 系统 抽样 是 使 用 最 为 广泛 的 不 放 思 不 等 概率 抽样 方法 之 
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一 。 它 之 所 以 受 欢迎 ， 主 要 是 因为 它 结合 了 系统 帮 祥 方便 易 行 与 不 等 概 
求 抽样 的 高 效率 的 共同 特点 作为 一 种 不 放 回 的 不 等 概率 抽样 ， 它 很 容 
易 地 成 为 一 种 3ES 打样 ， 其 方法 也 适用 于 任意 辜 本 最 ”的 情形 ， 这 与 许 
多 实用 的 xPS 抽样 仅 适用 于 m2 的 情况 完全 不 同 ， 因此 不 等 概率 系统 
抽 祥 的 总 体 效 率 较 高 . 不 过 与 其 他 一 些 系统 抽样 一 样 ， 它 的 方差 估计 是 
较为 困难 的 ， 

对 总 笨 的 六 个 单元 的 基 种 确定 的 排列 顺序 , 车 foro i 一 I 2, …, NN} 
是 一 组 包含 概率 ， 名 =- % 不 等 概率 系统 抽样 的 一 般 方法 是 先 在 [0, 4] 


范围 内 随机 地 抽取 一 个 实数 7, 则 满足 下 列 条 忻 的 总 性 中 的 第 各, 冯 ，…， 
-4 个 单元 入 祥 : 

号 < 入 me>r+z (k= 0, 1, nm 一 1 (8.33) 

在 应 用 中 最 为 常用 的 是 PS 系统 抽样 ， 世 即 入 样 概率 与 单元 大 小 

于 :成 比例 的 系统 抽样 . 令 ae- 加 MH， w= < ， 具体 进行 搜 祥 则 


与 一 般 的 系统 抽样 类 位 , 也 用 通常 PPS 提 样 中 的 代 色 法 对 第 一 个 单元 
同 以 1~ 形 ; 共 了 Hi 个 代码 ， 对 第 二 个 单元 赋 以 az: 二 Im arts 共 Ms 
个 代码 ……， 对 第 个 单元 车 以 置 如 /二 1~ 褒 如 / 共 了 ,个 代码 …… 
今 到 为 最 接近 于 MMo/n 的 整数 (不 尖 一 般 性 ， 我 们 设 天; 并 为 整数 ) 则 从 
1~ 记 落 围 肉 随机 地 产生 一 个 整数 ?， 则 代码 7， 7 十 加 …， "十 (mn 一 I) 朋 所 
在 的 单元 即 为 入 样 单元 ， 

例 B.3 设 总 体 由 表 8.10 中 允 一 8 个 单元 组 成 ， 了 Ho 一 45, 车 m 一 3 
一 15, 又 1~ 相 范围 内 产生 前 随机 数 + 一 5, 则 代码 为 马 20,，35 的 三 个 半 


















































束 8.10 xPS 系统 抽样 示例 
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元 , 即 第 1, 4, 6 三 个 单元 入 祥 . 

注意 ; 工 述 抽样 方法 还 不 能 保证 抽样 是 不 放 回 的 .事实 上 , 对 于 那些 
特别 大 的 单元 , 也 即 几 ,>>6 的 单元 , 对 某 些 +, 有 可 能 被 重复 持 到 . 为 加 
免 这 种 情形 发 生 , 最 好 的 方法 是 将 这 些 单元 事先 抽出 来 , 对 每 个 都 进行 调 
查 . 然后 在 其 他 单元 组 成 的 子 总 体 中 再 进行 抽样 。 这 祥 敏 不 仅 保 证 了 方 
法 是 不 放 回 的 , 而 且 效 率 更 高 . 


8.5.2 估 计 量 
对 于 不 等 概率 系统 抽样 , 总 体 总 和 了 的 估计 仍 可 用 通常 不 放 回 的 不 
等 概率 抽样 中 前 瑟 orYitz-Thompson 估计 量 : 
be (8.34) 
根据 定理 5.2, 傅 gx 是 了 的 无 偏 合计 , 其 方差 为 ， 
Var) ~ 高 二 PIt2 训 入 2 YY. (8.85) 
当 % 固 定时 , 又 可 以 表示 为 “ 
Fa -总 为 (mm 人 (天 -至 ) (8.36) 
但 上 述 方差 并 不 一 定 能 根据 定理 5. 3 用 样本 和 进行 估计 ， 其 原因 是 在 不 等 
概率 系统 抽样 中 , 并 不 总 能 保证 对 所 有 的 mu>0， 事 实 上 , 通常 都 有 不 少 
wy 一 0， 例如 在 例 8.8 中 ,wis 一 rz 一 was 一 wse 一 ws 一 over 一 0064 一 D。 因此 
方差 悄 计 必须 用 别 的 方法 ， 我 们 将 在 88.6.2 中 讨论 这 个 问题 . 










































































$8.6 系统 抽 祥 中 的 方差 估计 


与 前 几 章 讨论 过 前 其 他 基本 抽样 方法 不 同 的 是 ， 系 统 抽样 佑 计量 的 
方差 估计 没有 理想 的 和 精确 的 方法 .本 节 介 绍 的 许多 估计 方法 在 某 种 程 
度 上 都 是 近似 的 , 在 实际 应 用 时 要 区 别 情况 , 对 不 同 的 总 体 模型 选择 较为 
合适 的 估计 量 . 


8.6.1 等 概率 系统 抽样 的 情形 


对 于 等 概率 系统 抽样, 即 一 般 意 义 的 等 距 抽 样 ,有 八 种 可 用 的 方差 佑 
计 . 我 们 从 直观 上 解释 这 些 估计 的 构造 思想 , 并 进行 比较 , 指出 各 自 的 使 
用 场合 ， 与 以 前 一 样 , 我 们 仍然 假定 访 一 nh, 在 必要 时 进一步 候 定 m 为 偶 
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数 . 另外 ,为 表达 方便 ,我 们 再 次 将 丈 个 总 体 单 元 按 行 ( 群 )、 列 ( 层 ) 排 
烈 , 记 为 了 ws 且 抽 到 的 初始 单元 编号 为 <。 我们 讨论 的 是 对 了 的 估计 量 


B= 直 训 了 ws 的 方 状 六 (2s) 的 信 计 . 


一 、 八 种 方差 估计 
若 将 系统 样本 视 为 简单 随机 样本 , 则 产 (3.,) 的 估计 可 用 


“0 s2， {8.37) 





共 中 7- 基 ， -入 (7 

车 从 第 二 个 样本 单元 起 者 与 前 一 个 样本 单元 组 成 一 对 共 m 一 1 对. 
每 对 单元 的 ( 桩 本) 方差 可 表示 为 沼 (Y4y 一 了 6s-:)?， 因 下 六 (3y) 的 方差 
估计 可 表示 为 : 








wD (8.38》 
其 中 
y= AAP = Py— Yes. (8.39)} 
如 果 仅 考虑 相 邻 不 重 选 的 两 个 婵 本 单元 对 , 共 mn/2 对 , 可 得 
=n (8.40) 
we、4s 只 是 考 虚 了 样本 观测 值 的 二 阶 差 分 ， 可 以 考虑 用 更 高 阶 的 差 


分 , 于 是 有 以 下 三 种 方差 估计 : 








ou 一 荆 广 Bg/ [O(n —2)], (8.41) 
w= 训 %/[3.5(m 一 2]， (8.49) 
[5] (8.49) 
其 中 
56 一 door AY = Ya 2 ,it Fg-as (8.44) 
ey = Py A 


2 
1 1 
= 也 Fu Fost ,sa— Ysat 到 Fis (8.45) 
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EP t+544Fyre+24Fora 
-~ 去 Yoy— Yt Ya Yat 一 err+ 王 了 
(8.46) 
注意 mm， wy v5 与 v6 分 母 中 的 系数 2, 6, 3.5, 7.5 分 别 等 于 @y, By, om 
Gs 对 了 5 展开 式 中 各 项 系数 的 平方 和 . 
车 将 样本 随 析 地 分 成 2% 个 子 样本， 每 个 包含 %/m 个 单元 (假定 n/m 
为 整数 ), 令 go 为 第 a 个 子 样本 的 平均 数 , 则 
1 
rant 
于 是 矿 (go) 也 可 用 下 式 估计 ， 
一 元 站 (一 和) (8.47) 
这 一 方法 称 为 陆 机 分 组 法 ， 在 下 一 章 中 将 详细 地 讨论 一 般 情形 下 的 
这 一 类 方差 估计 . 
最 后 一 个 估计 量 是 用 总 体 中 相 臣 为 天 的 两 个 单元 的 相关 系数 px 来 
表示 的 .事实 上 ， 可 以 用 此 构造 一 类 估计 量 . ws 是 由 Oochran(1946) 提 
出 的 : 








工 -了 [+ 2 + ， 车 遍 >>0; 
“0-| 站 二 所 FT (8.48) 
工效 <0 
其 中 所 是 pr 的 估计 ， 


二 、 不 赔 估 计量 的 比较 
为 研究 上 述 八 种 方差 估计 量 在 不 同 模型 下 的 姓 质 ， 我 们 考 典 一 些 典 
型 的 超 总 眉 模 型 . 
假定 所 考察 的 总 栖 是 由 以 下 超 总 体 复 型 随 宙 产 生 的 : 
了 ,ws 一 Asz 十 str。 (8.49) 
其 中 pw 是 名 j 了 的 已 知 (常数 ) 函 数 , sy 是 随机 分 量 ， 对 pm 的 不 同 函 数 形 
式 就 有 不 同 的 超 总 体 模型 .对 sw 我 们 假定 
Fes)—0, (eg) 一 2 (8.50) 
严 (ger) 的 某 个 估计 va( 在 超 总 体 意义 下 ) 的 期望 偏 倚 和 租 对 期 望 偏 倚 分 别 
定义 为 : 
BVa) ~ EBVa) — EV (yy), (8.51) 
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Rva) =— Ba)N/ EV (gy), (8.52) 
1， 随 机 模型 (ranrdom model) 车 对 所 有 的 j, Hu 丝 为 常数 ， 即 
Leys = bh, (8.53) 








且 sw 是 独立 同 分 布 的 随机 变量 ， 则 模型 称 为 随机 模型 。 对 这 个 模型 ，yor 
的 其 望 方差 是 








FV (Yor) =— 七 2. (8 .54) 


可 以 证 明 六 (3s) 的 前 七 个 估计 的 期 望 偏 惰 迪 为 零 ， 多 (ve) 也 接近 于 零 ， 
因此 对 于 随机 模型 , 所 有 八 种 知 计 的 效果 都 不 错 , 但 鉴于 vi 最 简单 , 故 它 
是 最 佳 选择 . 

2， 线性 鑫 势 模型 (lineaz trend modsl) 这 个 模型 的 Mu 有 表达 


Mu= Bot Balst+ (Ff—1)b]. (8.55) 
其 中 Bo Bi 是 未 知 常数 , 有 旦 ss 也 是 独立 同 分 布 的 随机 变量 . 此 时 
EV (gn) — BR —1) /12+ (1—f) oo/n. 《8.567 
各 个 方差 估计 的 期 望 值 分 别 为 
GEVN— ~ LB n+) /12+ 0/n], {8.57) 
SE) — GB) — A—f) LB (Qn) os/n], (8.58) 
FE) EE) — EE) = (1—f) os/n, (8.59) 
EGET 1— LB m+1) 2+ on], (8.60} 
2 2 
SB) HILO /nl [Lt ry 70 To 1] 
(8.61) 
其 中 TD = Bim— 3) (nt+1)/12— o2/n, 
7(0)= Bhnnt1)/12+o?. (8.82) 
从 上 述 公式 可 看 到 , 对 于 较 大 的 矶 且 Bi 不 十 分 接近 于 零 时 , 有 
(v1) om, 


静 (o) 一 家 (oa) 2 一 (m6)/n, 
璇 (va) 一统 (v5) 一 维 (ve) 守 一 
再 (or) 一下 
故 愉 相对 期 望 偏 和 欠 的 观点 看 , 刀 与 ve 最 好 ， 其 次 是 v4, vs 与 we， 模拟 结 
果 表 明 ws 有 时 也 相当 不 错 . 
3. 分 层 效应 模型 (stratification effects model) ”这 个 模型 中 的 jo 
满足 


258 第 8 章 系统 抽样 





Ly = 《8.63) 
4 仍 是 独立 同 分 布 的 随机 变量 ， 此 时 _ 
EV (bs) = (1—f or/n. ， (8.64) 
各 个 方差 信 计 的 期 望 秆 为 (其 中 有 一 高 4/"): 
GE) = (4-1) {Bm RY/ tntn DI+or/n}, (8.0%) 
EB(00)= 1— PD{ pa) /ann— t+ os/n), (8.660) 
EB (00)= -pS tn orm), 《8.67) 
EBC0) = PD{B Cat pr)s/ [Onn—2)]+os/n), 
(8.68) 
SE) =— (1—7f) 写 C3 /3— rt pres— Hstet sta/ 2)°/ 
[8.5n(w—4)] To/n) (8.69) 
GB(v0) = 人 一 站 | 当 Guya 一 ma+… 一 area/2)97 
[7.5n(n 8)] + or/n)}, (8.70} 
GB(o)= 1D mm) Bt/n]. 8.71) 
其 中 Bs 是 po 的 第 a 个子 样 本 的 均值 . 


FEVs) 1 RA tr 
WO 十 52 zDD 
, (8.72) 
其 中 “0 = nD PB)’, 
«(DD eB). 
从 上 述 列 出 的 结果 看 , 当 jy 粗 差 不 大 时 ,前 七 个 估计 量 的 相对 偏 俩 
都 较 小 ， 且 大 致 相等 ; 当 jw/ 相差 较 大 时 ， 不 同 估计 量 的 效果 有 较 大 的 差 
别 ，m 与 v8 常常 较 大 , 而 oc 与 we 一 般 较 好 . 
4. 自 相 关 模 型 (autoccrr3]ated model) 与 其 他 模型 一 个 最 大 的 区 
别 是 ， 对 于 自 相关 模型 , sw 不 是 相互 独立 的 ,而 是 相关 前 ,- 我 们 考虑 一 个 
较 简 单 的 情况 , 即 一 阶 自 相关 模型 ; 
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Fa—m=p(Yui— KH)+as (8.78) 
其 中 =1, 2, ,Ns 其 一 院 让 加 内 系数 (P< 可 以 证 明 
gp 28 , ” -2 
SV (5s) = 2 站 了 了 2) 上 Or ) 
(8.74) 
各 个 估计 量 的 期 望 值 分 别 为 ， 
2 部 一 pm 2 
SB)= 07) om{L 7 
pr (nl)p" 
[Er 全] 

一 I G2 OW-2), (8.75) 
EE(v0)=EE()= (7) C0/n) (~—p’), {8.76) 
EB(v)— (一 站 《cam [1 一 4p873 十 Pa/39] ， {8.77) 
FE(v) = (A—f) C0/ [L112pW/ T+ Bos/T dp/T + pm/ 人。 

(8.73) 


SE{(ve) = (1—F) on) [1 —28p/15+240%/15—20p%/15 
+16p*/15— 12p%/18+ Bp/15— 4p'*/16 + p*/15], 
(8.79) 


GEC) (HP oY) {Lt a/ Gm] [mkp™— pL 一 pn 
— pr—p") /4 p91 — [2/(m—1)] 
x [Ep pV/ pm) fm D/L—p™)) 
mp ps) /pr — (nes/ (1—p")) |} 
2 og [1+ 2 ( MO er)] FO(n-2), 





3 一 工 \ 工 一 PRm 
《8.80) 
本 再 (oa 一 (1—f) C0/n) [tra/ np ) +2p"/ 圭一 P)] tO), 
(8.81) 


由 此 可 知 , 车 p 完 0, 则 八 个 估计 量 的 偏 剧 都 较 小 ， 邵 果 蒋 大 , 则 不 
论 p 到 什么 值 (除非 p 必 了 D, 每 个 估计 量 的 馈 倚 也 不 会 很 大 。 v4 v5 与 2 
的 效果 不 错 ， 而 由 于 2/ 了 (内 是 一 2p/8(1 一 p) 的 一 个 很 好 的 近似 , 因此 
本 如 (V8) 与 GV (zy) 几乎 相等 ， 放 te 对 于 自 相关 总 体 是 一 个 相当 好 的 信 
计量 . 7 
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5. 期 总 笨 模型 (periodiec popnlation model) ”对 于 周期 变化 模 
型 , jw 是 3 0 一 1 和 友 的 周期 函数 ， 而 84 是 相互 独立 的 随机 变量 .一 个 
简单 的 模型 是 











Wy— Bosin {Bet CF—1) R81}. 

正如 我 们 在 8 8.3 中 已 经 注意 到 的 , 对 周期 变化 的 总 本 ,采用 系统 掀 
样 要 特别 小 心 .例如 当 挫 样 冯 距 厂 是 周期 2w/ B: 的 傍 数 时 , yor 的 实际 方 
将 很 大 ， 和 而 所 有 八 个 估计 量 都 很 小 。 反之 ， 当 天 为 半 周 期 的 奇数 悦 时 ， 
六 (gz) 很 小 , 而 这 些 估 计量 很 大 ， 这 说 明 对 于 这 种 模型 ,上述 估计 量 都 不 
很 适用 . 

上 面 讨论 的 都 是 针对 某 一 种 模型 的 .。 如 果 对 模型 不 甚 了 解 ， 则 建议 
使 用 e 或 we。 这 是 因为 这 两 个 估计 量 对 于 相当 广泛 前 一 类 实际 总 体 都 
荐 普遍 适用 的 ， 


8.6.23 不 等 概率 系统 抽样 的 情形 

在 8.5,2 段 中 我 们 曾 指出 ， 不 等 概率 系统 抽样 对 总 体 总 和 了 的 估 
计 仍 可 般 不 放 回 系统 扫 样 的 也 orvitz-Thompson 合计 他 ar。 但 它 
的 网 种 方 汉人 半 缉 不 适用 了 了 系统 样本 ， 


7 一 总 Cer 一 mm 
viCP nr) 容 2 给 53 总 福 eis 


(par 一 总 se ee (和 - 妇 》， 


1 Fi my EE 
这 是 因为 上 述 估 讨 量 表 达 式 中 的 分 母 痢 含有 mo 而 对 于 系统 抽样 ,mi 有 
可 能 等 于 零 . 另 一 个 原因 是 mu 即使 不 等 于 0， 也 不 易 计 算 ( 特 别 是 对 
n>2 鸥 情况 )、 但 J NN. 玉 . Raok1962) 证 明了 当 总 体 单元 是 随机 排列 
的 ， 时, 有 


WH 





























(8.82) 
车 用 上 式 的 近似 值 替换 mo 代入 vo( 全 Ex) ( 即 估 gz 的 Yates-Grondy- 
fen 估计 ), 由 1 本 得 到 一 个 二 为 再 要 的 方 避 全 计 ， 
(和 +o. 
(8.83) 
在 上 式 中 , 车 m= 吝 , 即 等 概率 系统 抽样 的 情形 ， 上 式 煌 当 于 8.6.1 
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了 段 中 对 竟 居 均值 了 的 估计 量 ycy 的 方差 信 计 (和 差 入? 偿 )v1. 
如 果 我 们 将 样本 作为 放 回 的 PPS 祥 本 处 理 , 则 可 得 到 另 一 个 方差 忧 
计 : 
oz0 一 zy yp 总 ?se ) (8.84) 
由 于 实际 抽样 是 不 放 回 的 ， 办 此 上 式 “高 侍 > 了 方 郑 ， 还 必须 考虑 有 限 总 体 
校正 系数 工 一 f。 对 于 此 种 情形 , 一 个 有 用 而 简单 的 jy 的 估计 为 


和 家 到. 《8.85) 
六 此 我 们 可 得 到 另 一 个 方差 佑 计量 , 
1 一 为 mun 。 
V1 Gponm 作 岂 ar) (8.86) 


与 好 及 妇 的 考虑 类 似 ， 用 相依 祥 本 单元 (的 加 权 值 ) 差 值 的 平方 和 
六 表示 方差, 则 有 
0 - Ws) /nD 8.8) 


宅 5 


1 3 We +) /a. (8.88) 


nm 总 W241 
与 此 同 理 , 可 构造 相当 于 va vo、vo 的 估计 是 

车 将 样本 随机 分 组 成 办 个 系统 子 祥 本 ， 每 个 包 食 n/m( 设 为 整数 ) 个 
样本 单元 , 令 


os 一 





全 一 加 "Yet (8.89) 
是 第 a 个子 样 本 对 了 的 HT 生计 则 有 如 下 的 估计 量 
Via— SP pn)’. 《8.90) 


二 IT) 

如 果 考 虚 总 体 是 从 基 个 超 总 休 随 机 产生 的 ， 则 根据 该 超 总 体 的 模型 
可 构造 相应 的 估计 量 。 不 过 这 类 估计 量 所 包含 的 计算 量 较 大 ， 具体 方法 
见 Bartley (1962). 

上 述 方 差 估 计量 的 理论 性 质 目前 所 知 其 少 ， Wolter(1985) 对 这 些 
和 外 计量 作 了 大 量 的 模拟 研究 与 比较 ， 根 据 这 些 模拟 研究 ， 对 于 随机 《或 
近似 随 视 ) 排 列 的 总 体 ，we .ere 与 wx 的 效果 都 比较 好 ， 考 虑 到 we 包含 较 
多 的 计算 ， 因 此 ws 与 wa 更 为 人 们 崭 乐 意 采用 对 于 具有 革 种 (例如 线 
人 性) 趋势 的 总 体 , 013、v1s 较 好 ， 对 于 小 祥 本 情形 , gas 更 为 适宜 ， 而 与 等 概 
率 系统 抽样 中 的 or 一样, 通常 w 的 性 质 不 太 理想 ,一 般 不 推荐 使 用 . 
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复杂 样本 方差 估 
计 的 一 般 方法 
59.1 引言 


随 着 社会 的 发 展 , 抽样 调查 的 应 用 日 益 广 泛 , 相应 的 抽样 调查 的 理论 
研究 当然 也 得 到 发 展 、 像 统 计 推 断 一 样 ， 在 分 析 和 解释 抽样 所 得 的 数据 
资料 时 , 抽 祥 调查 工作 者 画 临 两 个 必须 解决 前 问题 : 一 为 构造 一 个 合适 的 
统计 量 以 对 感 兴趣 的 总 体 指标 (参数 ) 作 出 估计 ; 二 为 对 所 作出 的 估计 进 
行 一 定 的 评价 ， 印 刻 划 该 估计 量 的 精确 程度 ， 最 通用 的 关于 精确 度 的 济 
度 是 调查 估计 量 的 方差 . 一般 情况 ， 佑 计 基 的 方差 是 未 知 的 但 必须 从 调 
查 资 料 本 身 得 到 它 的 估计 

有 显然， 调查 统计 量 的 方差 受到 统计 量 本 身 的 形式 以 及 抽样 方案 的 设 
计 特 狂 这 两 个 因素 的 影响 ， 因 此 我 们 很 自然 地 认为 估计 量 的 方差 是 关于 
统计 其 形式 及 抽样 方案 的 函数 ， 在 抽样 方案 比较 简单 的 情况 ， 例 如 简单 
随机 抽样 .分 层 随机 朱 样 二 阶 抽样 、 整 性 抽样 等 , 而 且 调 查 统 计量 取 简 单 
的 关于 观测 值 的 线性 函数 形式 ， 对 这 种 较 人 简单 形 式 的 方差 佑 计 企 本 书 的 
前 元 章 中 已 分 别 有 所 介绍 ， 但 在 实际 问题 中 ,所 应 用 的 抽样 方案 并 非 简 
单 的 一 种 形式 , 通常 是 蕊 种 抽样 方法 的 有 机 组 合 , 所 采用 的 全 计量 也 不 一 
定局 限于 简单 估计 形式 , 可 能 是 诸如 上 比 估 计 、 回 时 估计 或 其 他 更 复杂 的 形 - 
式 . 对 这 类 复杂 样本 以 及 更 一 般 的 估计 量 ， 我 们 也 需要 估计 其 方差 ， 在 
本 章 中， 我 从 将 把 注意 方 集 中 于 对 这 类 复杂 样本 方差 估计 的 一 般 方法 研 


究 上 . 


9.1.1 复杂 样本 调查 

复杂 样本 就 是 从 一 个 复杂 抽样 调查 所 得 到 的 样本 。， 关 于 复杂 抽样 调 
得 常常 从 如 下 妃 个 角度 出 发 考虑 : 

一 、 抽 样 方 案 的 复 泰 程度 

复杂 址 样 凋 查 常 包括 一 些 抽样 方案 的 特性 , 诸如 : 分 层 、 多 阶 抽样 .不 
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等 释 率 抽样 .双重 抽样 及 多 框架 等 等 . 

二 、 调 查 估计 量 的 复杂 程度 

复杂 的 调查 估计 量 常 包括 那些 非 线 性 入 计量 ， 饮 好 比 估计 或 回归 信 
计 等 。 有 时 候 , 我 们 需要 对 茶 些 情况 出 现 而 作出 一 些 调整 , 例如 调查 中 无 
回答 的 情况 (参见 下 章 ), 或 者 出 现 过 份 的 “突出 值 ” 人 情况 等 等 , 这 样 的 调整 
当然 增加 了 调查 统计 基 的 复杂 性 度 . 

三 、 感 兴趣 变量 或 指标 的 多 重 性 

在 大 多 数 有 关 抽 样 的 教科 书 中 以 及 本 书 的 前 几 章 中 ， 人 们 常常 一 次 
仅 考 虑 一 个 指标 (参数 )， 而 复杂 抽样 调查 常 包含 数 十 甚至 数 百 个 感 兴趣 
的 指标 (参数 ). 

四 、 调 查 资料 的 描述 性 与 分 析 性 用 途 

复杂 抽样 调查 不 仅仅 关系 到 总 体 的 车 于 指标 ， 队 了 拱 述 性 的 目的 之 
外 ， 它 还 包括 分 析 性 的 目前 这样 可 以 分 析 原 因 ， 找 出 总 体 中 的 某 些 关 
系 , 进而 建立 有 关 的 数学 模型 . 

五 、 调 查 的 规模 ,范围 与 深度 . 

如 果 调 查 涉 及 到 成 于 上 万 个 体 , 需要 大 规模 的 组 织 工作 , 这 样 的 抽样 
调查 自然 是 复杂 的 . 

当然 ， 调 查 的 复杂 与 否 并 不 完全 从 上 述 角 雇 清 晰 地 划分 有 些 调查 
从 菜 些 角度 来 看 可 能 是 复杂 的 , 但 从 另外 的 角度 来 看 也 许 并 不 复杂 . 


入 .1.3 方法 概述 

对 于 一 个 复杂 样本 , 如 何 为 调查 估计 量 选择 一 个 合适 的 .近似 的 方差 
估计 ?这 实在 是 一 个 颇 为 困难 的 问题 ,因为 它 涉及 到 方差 估计 的 精度 、 所 
花费 用 (包括 时 间 ) 的 多 少 、 操 作 的 简便 性 等 等 ， 调查 统计 工作 者 必须 对 
这 些 问 题 给 予 考虑 并 且 在 它们 之 间作 出 一 定 的 权衡 . 

本 章 将 介绍 一 些 非 标 淮 的 方差 估计 方法 ， 用 这 些 方法 所 得 到 的 估计 
量 不 一 定 是 无 偏 佑 计 ， 但 是 它们 充分 变通 地 迎合 了 复杂 抽 祥 的 大 多 数 特 
性 ， 

Jaekknife 方法 与 Bootatrap 方法 是 建立 在 再 抽 祥 理论 上 的 构造 方 
差 佑 计 的 两 种 近代 统计 方法 ， 利 用 再 抽 祥 技巧 可 以 将 原来 的 总 体 进行 复 
制 ， 在 复制 的 总 体 中 ， 可 以 使 用 原来 的 抽样 办 法 再 复制 抽样 样本 及 构造 
世祥 结构 的 有 关 指 标 (和 参数 ) 的 统计 量 ， 由 于 复制 的 总 体 及 统计 芝 是 原 有 
总 体 及 统计 量 的 一 个 缩影 , 而 在 复制 的 模型 中 ， 包 括 统计 量 的 均值 . 方差 
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等 特性 在 内 的 几乎 一 切 为 我 们 所 关心 的 指标 均 可 以 通过 计算 得 到 一 一 尽 
管 有 时 鲍 茶 些 计算 祖 当 繁复 ， 但 是 从 理论 角度 来 看 ， 由 于 复制 总 体 为 已 
短 , 总 可 以 计算 出 来 ， 一 一 于 是 ,复制 模型 中 统计 时 的 方差 作为 原来 的 方 
差 估计 的 一 种 替代 是 顺理成章 的 . 

利用 复制 技巧 对 复杂 抽样 调查 实施 方差 估计 的 另 一 种 最 基本 的 方法 
之 一 是 随机 组 方法 ， 也 是 最 早 得 到 发 展 的 方差 信 计 方法 。 其 实质 是 按 一 
定 前 抽样 方案 从 母体 中 抽取 若干 组 样本 ， 对 于 每 一 组 样本 建立 有 关 指 标 
《人 参数) 的 相同 形式 佑 计量 这 些 估计 量 之 癌 的 离散 程度 提供 耳 基 于 联合 
抽样 样本 所 建立 的 估计 量 方差 的 估计 ， 在 本 章 关 于 Jackknife 方法 这 一 
节 中 可 以 看 到 ， 关于 联合 样本 记 建 立 的 估计 量 的 随机 组 方差 估计 实质 上 
是 再 抽样 方法 中 当 再 儿 样 容量 大 小 为 随 术 时 “不 完全 和 ”的 计算 形式 . 

平衡 举 样本 方法 是 又 一 种 复制 技巧 的 成 果 ， 它 将 (各 层 中) 随机 组 数 
减 为 两 个 以 提高 方差 估计 计算 的 效率 ， 但 是 它 与 随机 组 方法 有 所 区别. 
本 章 将 专 设 一 节 加 以 讨论 . 

区 别 于 上 述 “ 复 制 ” 佑 计量 技巧 的 方差 估计 方法 ， 我 们 主要 介绍 
Taylor 级 数 法 ， 所 谓 Taylor 级 数 法 ,实质 上 是 一 种 线性 化 方法 。 在 描 
样 调查 中 人 们 会 遇 到 一 些 非 线性 估计 量 ， 比 如 比 合计 .回归 系数 估计 等 
大 包 数 非 线 性 居 计 量 可 以 近似 地 看 作为 茶 线 性 估计 , 于 是 利用 Taylor 级 
数 展 开 的 手法 可 以 得 到 近似 的 方 剑 估计 . 在 第 4 章 中 己 讨 论 过 这 一 技术 ， 
在 这 一 章 中 继续 将 这 一 方法 予以 深化 ， 至 于 蒜 点 带 近 方法 ， 筷 前 主要 用 
于 所 考虑 的 指标 为 连续 变量 或 者 总 体 元 素 充分 多 时 ， 可 以 近似 地 将 该 指 
标 视 作 连续 变量 前 情况 。 从 抽样 所 得 的 经 验 分 布 画 数 出 发 ， 利 用 鞍点 方 
程 解 得 或 点 ， 然 后 异 助 于 数学 中 鞍点 逼近 的 技巧 近 似 地 闭 得 统计 量 分 布 
孟 数 (或 分 布 密度 ) 的 估计 ， 这 样 就 可 以 获得 待 估 参 数 的 置信 区 间或 其 他 
有 关 信 息 ， 这 种 方法 的 优点 在 于 当 抽样 大 小 ”比较 不 时 仍然 比较 精确， 
从 分 布 拟 合 的 角度 优 于 通常 所 采用 的 正 态 近似 ， 对 于 我 们 需要 用 少量 的 
独 樟 以 对 社会 经 济 某 些 现 象 作出 快速 推断 来 说 ， 无 恬 担 供 了 一 种 有 价值 
的 方法 . 

















$9.2 随机 组 方法 


9.2.1 基本 思想 与 方法 
数理 统计 的 常识 告诉 我 们 : 如 果 于 ,五 ,, …, 六。 为 来 自 同一 总 体 秀 
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互 不 相关 变 量 , 那么 一 至 ) 作为 
估计 而 县 具有 无 偏 性 。 其 中 于是 所 有 工 ， 的 平 区 虽然, 7 
x 容 (一 一 )* 就 成 了 统计 量 至 的 方差 的 无 偏 估计 

上 述 基 本 常识 启示 我 们 。 如果 从 有 限 总 体 的 一 个 样本 得 到 有 关 指标 
《或 参数 )6 的 一 个 估计 量 , 不 芒 假设 为 先 , 那 末 重 复 同样 的 抽样 方法 以 及 
构造 同样 形式 的 估计 看 若干 次 ， 可 以 得 到 若干 个 (比如 万 个 ) 关 于 的 信 
计量 亢 , 名 , -…, 所 ， 且 基于 组 联合 样本 可 以 产生 一 个 新 的 关于 9 的 联 
合 估计 , 记 作 











ha 
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显然 名， 名, …， 后 构成 了 来 自 记 
台 的 方差 全 计 可 以 取 作 


GOD 


它 是 参数 六 (全 的 无 偏 估计， 构成 这 些 估计 重 味 (6~1 3, …, 而 的 上 组 
抽样 , 即 为 来 自 总 体 的 个 随机 组 . 

方差 的 所 谓 随 机 组 估计 实质 上 选择 来 自 总 体 的 两 个 或 两 个 以 上 组 抽 
样 ,一般 地 ， 每 组 抽样 采用 相同 扫 祥 方案 , 对 每 组 抽样 分 别 构造 关于 参数 
乡 的 佑 计量 ， 利 用 这 些 估计 最 之 间 差 的 平方 计算 基于 所 有 样本 联合 估计 
最 的 方差 . 

随机 组 方法 有 两 种 基本 形式 : 一 为 随机 组 之 间 互 为 独立 ; 二 为 随机 组 
之 癌 存 在 某 种 类 型 的 硼 依 性 。 


9.2.2 独立 随机 组 


以 一 定 的 帮 样 方式 取 第 一 组 样本 sz, 然后 放 回 总 笨 , 再 按 原 来 的 抽样 
方式 取 第 二 组 样本 s, 再 放 回 总 体 ; …; 重复 上 述 步骤 次 , 可 以 得 到 天 组 
随机 样本 ; si, sz, …, sx。 对 于 每 一 随机 组 样本 ， 以 某 种 形式 确定 6 的 售 
计 , 于 是 得 到 上 个 独立 的 关于 8 前 估计 , 记 作 如 (a 一 1, 3,…, 而 ， 

” 播 述 方差 的 随机 组 估计 的 主要 结论 陈述 如 下 . 

定理 9.1 设 扶 ，…， 页 为 具有 共同 期 望 如 (所 ) 一 呈 的 无 个 互 不 相 

关 的 随机 变量 , 定义 全 为 


6. 
总 体 的 一 系列 随 宙 观测 值 ， 于 是 


6- 高 .74. 
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那 末 五 ( 全 一 且 玉 ( 辣 的 无 偏 估 计 为 

v= /ppl). (09.1 

证 明 召 ( 合 = 是 显然 的 事实 ， 才 记 

v0)— [ 襄 名 -# ]/s8-D, 

则 
Bo [SF OY 1p) pC7 Br) t+) ] /BB—1) 
— O/H D-DD. 

注意 到 定理 9.1 中 并 没有 要 求 随机 变量 64 的 方差 相等 , 这 意味 着 随 
机 组 样本 可 以 用 不 同 的 抽 祥 方式 取得 ， 而 且 bf 也 可 以 取 不 同 的 桥 数 形 
式 , 只 需要 这 些 纪 互 不 相关 且 其 有 共同 的 期 望 , 定理 的 结论 依然 成 立 , 因 
此 利用 (9.1) 对 名 前 方差 进行 估计 是 原 予 自然 的 事情 ， 关 于 8 的 进一步 
推断 常常 高 不 开关 于 9 的 置信 区 间 这 一 概念 众所周知， 在 数理 统计 贫 











域 有 如 下 著名 的 结论 回答 了 这 个 问题 , 
定理 9.2 候 设 钢 ，…, 所 全 (CG, ca， 那 订 
(1) 统计 量 





z 一 (B00) /Vo NGO, 1). 
(2) 统计 量 
t— (GB—0/ VE) tpl), 
利用 这 个 结论 ， 假 如 舍 的 方差 基本 上 已 知 且 无 误差 ， 或 者 大 相当 大 
的 话 , 那 末 6 的 (1 一 om) 置 信 区 间 为 
(Bu oD), 9+u ol), 
其 中 wo 为 标准 正 态 分 布 的 双 侧 a 分 位 点 ; 而 当 全 的 方差 未 知 ， 或 者 上 并 
不 十 分 大 时 , 置信 区 间 取 作 
(Bi oD), Bri ua v8)), 
其 中 加 -aa 是 分 布 i 一) 的 双 侧 @ 分 位 点 。 
很 明显 , 定理 9.2 的 条 件 强 于 定理 9.1 的 条 件 , 而 且 在 有 限 总 体 抽 样 
中 很 准 严 格 地 满足 ， 但 是 独立 随机 组 抽样 以 及 在 每 一 个 兄 机 组 中 用 河 梯 
的 方法 构造 9 的 苦 计 量 ， 就 常常 在 方法 上 保证 了 所 ，.…， 扩 的 独立 局 分 
布 性 ， 至 于 反 的 正 态 性 假设 通常 在 有 限 总 体 抽样 中 根本 无 法 成 立 ， 然 
而 抽 祥 调查 的 渐 近 理论 常常 在 大 样本 情况 下 保证 了 6 的 近 仆 正 态 性 .至 
于 旬 是 否 期 望 为 9 的 问题 , 对 于 非 线性 估计 量 来 凑 , 常 存 在 非 零 偏 居 ,好 
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在 大 样本 量 的 抽样 保证 了 这 样 的 伪 怖 常常 蝇 得 微不足道 . 

拔 括 起 来 ， 定理 9. 芋 与 定理 9. 使 得 在 独立 随机 组 抽样 方法 的 很 多 
场合 , 可 以 得 到 全 的 方差 前 无 篇 估计 ， 并 有 皇 视 总 的 大 小 ， 利 用 正 态 理论 或 
+ 分布 理 论 获得 9 的 虱 信 区 间 . 

由 此 ， 不 难 想 象 随机 组 抽样 方法 的 许 包 重要 应 用 可 能 在 于 非 线 性 统 
计量 ， 邵 果 基 于 记 有 个 随机 组 的 联合 样本 , 用 构造 各 的 方式 同样 构造 
6 的 估计 量 匠 而 不 是 简单 地 将 各 平均 而 得 总 似乎 是 自然 ( 且 或 许 更 有 效 ) 
的 考虑 ， 俏 车 2. 是 线性 知 计 的 话 , 妇 与 乡 是 相同 的 ， 但 是 对 于 非 线性 侍 
计量 而 言 , 它们 一 般 并 不 相等 ， 以 下 例子 很 清楚 地 说 明 这 个 问题 . 

例 9.1 假如 希望 估计 两 个 调查 指标 痊 和 卫 与 下 之 比 g- 卫 /在 , 设 
了 。 时 sw 一 1, 3，…,%) 分 别 表示 第 a 随机 组 中 关于 了 与 的 入 计 ， 实 
几 中 它们 常 为 线 狂 无 偏 估 计 ， 于 是 

6 一 依 。/ 名。 


8- 到 以 人?/ 立 )， 
8- 避 f。 / 吝 印 


b= 








显然 ,一 般 地 让 引 . 
对 于 台 的 方差 在 实际 中 有 两 种 随机 组 估计 : 
(的 = 高 (2 gp), (9.9y 
0) 一 训 C6-O)YBR-D (9.8)》 


若 包 为 线性 形式 , 由 于 人- 6 从 而 wm 一 ws， 但 是 对 于 非 线性 佑 计量 来 说 ， 
有 . 
误 @.-0)- 寅 (6D)AG 0) 

当然 有 oa( 的 <<oa 人 有 ) 
成 立 ， 注意 : 我 们 希望 估计 的 是 的 方差 而 不 是 得 到 一 个 “最 小 "估计, 放 
从 稳妥 的 角度 出 发 ,一般 地 宁 取 wa), 因为 它 体现 了 各 分 组 中 的 6 关于 
6 的 差 平 方 的 平均 。 在 复杂 抽样 中 ， 由 于 样本 量 一 般 较 大 ， 吾 (8 一 全 ) 通 
常 显得 微不足道 ， 因 此 在 v1 与 oo 之 问 没有 太 大 的 差异 ， 倘若 在 岂 与 如 
或 者 与 全 之 间 存 在 显著 差异 的 话 , 则 要 么 说 明 在 计算 中 发 生 了 误差， 
要 么 表 蛆 这 是 由 于 抽 祥 容量 偏 小 而 到 起 的 偏 情 ， 

对 如 与 “2 到 座 推荐 以 哪个 为 6 的 方差 估计 是 个 难 确定 的 问题 ， 到 
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底 哪 一 个 是 (6) 的 较 精 确 估 计 , 仍然 是 个 需要 探讨 的 课题 . 


9.2.3 和 非 独立 随机 组 


在 实际 应 用 中 , 很 少 会 进行 一 系列 移 独 立 随机 组 轴 样 , 最 经 常 的 办 法 
是 采用 某 种 不 放 回 形 式 整体 地 选择 调查 样本 .此 时 的 随机 组 只 能 采用 将 
这 些 祥 本 随 视 地 划分 为 组 , 然后 在 每 组 中 计算 人 计量， 并 采用 (9.1) 形 
式 的 方差 佑 计 公式 ， 显 然 这 种 划分 随机 组 的 方法 使 得 各 个 加 之 间 不 再 
互 不 相关 , 定理 9.1 的 结论 不 再 严格 地 成 立 . 

如 何 将 原始 样本 随机 地 划分 为 组 呢 ? 一 个 最 基本 的 原则 是 使 每 个 
随机 组 具有 与 原始 样本 一 样 的 托 样 结构 , 或 者 说 ， 由 于 划分 的 随机 性 , 使 
每 个 随机 组 均 可 看 作 原 始 样 本 的 一 个 缩影 ， 这 在 简单 不 放 回 址 不 放 回 
了 PS 形式 抽取 “个 单 阶 样本 的 情况 不 蕉 办 到 ， 我 们 只 需 从 原始 样本 中 
不 放 回 地 随机 插 取 mw 一 [my 机 个 样本 单元 作为 第 一 个 随机 组 ， 从 余下 的 
nn 一 m 个 原始 样本 单元 中 再 不 放 回 地 随机 抽取 om 个 作为 第 二 个 随机 组 ， 
继续 这 种 做 法 直到 抽 完 .假如 mn/5 不 是 整数 ; 即 n 一 tm- 上 9 (0<g< 有 加 , 那 
末 有 两 种 处 理 方式 : 要 么 将 最 后 这 g 个 样本 排除 出 天 个 随机 组 之 外 , 这 样 
全 计量 将 损失 一 定 的 信息 ; 要 么 将 它们 逐一 加 入 前 面 g 个 随机 组 ， 对 于 
较 复 杂 一 些 的 抽样 则 要 小 心 一 些 ， 例 如 , 在 多 阶 抽样 模型 , 随机 组 的 形式 
是 将 最 基本 的 群 ( 即 对 相同 初级 抽样 单元 所 选取 的 样本 的 集合 ) 划 分 为 
组 而 得 到 ， 这 样 的 划分 原则 依赖 于 首 阶 抽样 方案 的 特性 ; 对 于 分 层 抽 样 ， 
有 两 种 选择 : 悄 震 希望 估计 某 层 内 的 方差, 那么 按照 在 该 层 内 抽样 方案 的 
特性 在 该 层 划 分 随机 组 ; 简 若 希望 入 计 包 括 所 有 层 在 内 的 总 方差 , 那么 每 
一 个 随机 组 必须 是 又 一 个 分 层 抽样 ， 妓 对 每 一 层 中 抽 得 的 样本 按照 在 访 
层 中 原先 的 抽样 方案 随机 地 划分 五 组 ， 然 后 在 各 层 抽样 中 任意 各 取 一 个 
随机 组 形成 总 抽样 的 一 个 随机 组 , …, 等 等 . 

在 非 独 立 随机 组 情况 下 ， 关于 总 体 参 数 9 的 估计 方法 一 般 与 独立 随 
灿 组 的 情况 一 样 . 设 表示 从 原样 本 中 计算 而 得 的 8 的 估计 量 ， 有 8 表示 


第 随机 组 中 9 的 入 计量 , 且 人- 六 6 、 太 (全 的 随机 组 估计 为 





vs. Ce. 
而 对 于 匠 的 方差 通常 有 两 种 估计， 
v6) = (0), (9.5) 
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-人 (9.6) 

出 于 同样 理由 , 为 稳妥 起 见 , 我 们 有 时 宁 取 we 而 不 取 如 

由 于 随机 组 合计 铝 相互 之 间 不 再 是 独立 的 ， 通 常 009) 不 再 是 六 (0》 
的 无 偏 佑 计 , 《四 的 一 些 性 质 可 由 下 述 定理 描述 : 
定理 9.8 设 召 (4) 一 pon, pu 不 必 等 于 所 则 


如 (站 一 高/ka 志 





且 CO A 
一 ?以 加 cov( 纪 Bo)/2C8 一 1D。 
如 果 每 个 随机 组 具有 相同 大 小 , 那 末 
jiu 一 此 (oa 一 二 2 
HB)=E, 
且 Blv(B}- VO Cov(,, 8). 
证 明 、 国 () 一 玉 是 显然 的 事实 ， 将 方差 的 随机 组 估计 改写 为 

v= 名 -2 名 高 66s/p(p-D), 
由 BOD) VBE 
及 BH(O, Fs) — Oov (bo, Bs) + apoas 
不 难得 到 定理 的 结论 . 御 


9.2.4 ”随机 组 数 五 的 选择 


正如 统计 推 炳 所 处 理 的 那样 , 对 于 9 的 佑 计量 8 前 方差 , 首先 需要 得 
到 它 前 估计 ， 这 不 仅 在 分 析 资 料 时 显得 非常 重要 ， 而 且 在 设计 调查 方案 
时 合计 基 台 的 方差 也 显得 相当 重要 ， 因 为 调查 统计 工作 者 可 以 利用 的 
方才 个 计 而 设法 将 调查 方案 最 佳 化 并 选择 尾 够 大 竟 样 本 以 产生 关于 及 的 
精确 程度 的 理想 水 平 ， 第 二 个 重要 问题 在 于 的 方差 信 计 的 精度 ， 我 们 
已 经 指出 利用 独立 或 非 独立 随机 组 方法 至 少 部 分 回答 了 上 述 第 一 个 重要 
性 ， 紧 接着 关心 的 一 个 阿 题 自 然 呈 该 方差 估计 的 精度 为 达到 较 理 想 的 
精度 ， 人 们 自然 要 问 ;“ 需 要 划分 多 少 个 随机 组 2* 即 究竟 选择 什么 样 的 
整数 为 最 住 ? ， 

谈 到 随机 组 方差 舍 计 (全 的 质量 评 全, 毫 无 疑问 会 想到 v( 从 的 方 六 
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Fa( 信 }。 然而 此 时 我 们 一 般 并 不 太 关心 2( 屠 的 是 信 区 间 ， 因此 纯粹 地 
再 知 计 产 {e(9 他 意义 不 大 。 况且 一 个 变量 的 稳定 与 否 不 单纯 考虑 它 的 万 
差 大 小 还 要 邮 及 到 关于 变量 的 平均 值 的 相对 大 小 加 以 考虑 , 于 是 产生 了 
一 般 的 OV 准则 , 即 考虑 o( 全 的 变异 系数 : _ 
OVie( 信 1- [PF {CO HY 8). 
另 一 个 准则 是 考虑 8 的 置信 区 间 
Beto Bs, BrofoB) 17’) 
的 大 小 (其 中 6 为 某 正常 数 ) 或 者 考虑 它 包含 6 的 履 盖 概率 当然 还 有 
一 些 其 他 的 评估 准则 , 这 要 视 它 在 统计 分 析 中 的 用 途 丽 定 , 本 书 不 准备 一 
一 加 以 论述 了 . 
对 于 主要 的 OV 准则 , 由 下 述 定理 开始 探讨 : | 
定理 9.4 设 生 ,名 ,…, 后 为 独立 同 分 布 变 量 , 而 v( 站 如 公式 (9.1> 
所 定义 , 那 未 
Ov{oB)}— {BC (3)/ (BD 1 C9.7) 


其 中 60) {0 p68,). 
Bl Eo. =p) 2 
证 明 ”出 (a 一 1, 3,…, 思 ) 的 独立 性 , 有 
BoB)J= 二 宫 or E(t w= 7) 训 总 mp)ecpo)， 











其 中 xx(Bo)= B{CBs— 1)}s 
~ “a(Bs) — BEB — 1m). 
注意 到 名 的 同 分 布 特性 , 故 








Vo 人} 一直 (0)+ +- 避 F 台 3 (6 -Bfo( 人 ] 


Ch—1) 
由 变异 系数 定义 即 得 定理 结论 . 和 
定理 9.4 实质 上 告诉 我 们 ， 独 立 随机 组 方差 估计 的 OV 依赖 于 峰 态 
-BC1) 及 组 数 这 两 个 因素 ， 如果 天 小 0V 则 大 ， 从 而 方差 合计 具 较 差 
精度 。 如 果 久 的 频率 曲线 在 中 心 附 近 及 在 尾部 具有 “超越 ” 量 ， 峰 态 
BBeB1) 就 大 , 而 方差 估计 的 精度 就 差 . 假如 上 比较 大 , 则 OV 近似 地 反比 


于 随机 组 数 到 
OV OB)} = -ee 于。 


于 是 , 方 着 的 随机 组 估计 的 精度 非但 依赖 于 组 数 , 而 且 与 所 的 分 布 (从 
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而 与 Be(6s)) 有 密切 关系 ， 也 就 是 说 ， 与 名 的 构 屠 形式 和 样本 抽取 的 方 
式 均 有 关系 ， 候 如 史 取 为 样本 的 某 平均 形式 ， 纪 们 可 以 容易 地 计算 出 
BCBo), 设 m 丛 为 随机 组 数 太 前 整数 倍 ， 即 每 个 随机 组 售 m 一 zy/ 个 祥 本 
单元 , 若 原 抽样 方式 为 放 回 的 简单 随机 抽 祥 ， 包 取 作 第 wx 组 的 样本 均值 ， 
显然 网 
8 一 到 翌 ou 一 元 辫 咏 - 
此 时 Ba ) — Bs/mt 3m—1)/m, 
Be- 要 ro 7 信 咱 -PVA 
而 着 原始 痒 本 为 在 放 回 情 况 下 的 PPS 样本 ， 今 联名 一 十 六 wa 表示 菇 
于 第 a 随机 组 的 总 体 总 和 的 信 计 量 , 那么 
2_ 1 1 
9= 丽 训 全 填 
此 时 Bi{B) = Bf/m t+ 3m—1)/m, 
pC 
仿 7:-2T%n} 
其 中 T= Ym. 
这 两 种 特殊 的 形式 冀 含 了 这 样 一 个 事实 ， 常 见 的 实际 情况 是 Be(8) 
基本 上 具有 总 十 的 形式 ， 其 中 m、68 为 常数 ， 当 中 从 工 开始 阐 加 对 ， 
Bs 全 ) 明 量 地 减少 , 然而 鸯 着 四 枇 来 越 大 , 峰 度 B4(B1) 的 递 三 显得 越 来 赵 
不 重要 , 它 抵消 不 了 相应 减少 的 大 所 带 来 的 影响 , 因此 组 数 比 起 组 内 样 
本 量 吕 来 ， 对 OYf{o(8)} 的 焉 小 与 方差 估计 精度 的 提高 ， 具 有 较 大 的 影 
响 











定理 9.4 的 结果 可 以 在 不 放 回 抽样 这 样 更 普遍 的 场合 ， 尤 其 是 在 总 
栖 很 大 而 抽 梯 比较 小 的 场合 近似 地 认可 ， 这 在 Hansen、Hurwitz 与 
Madow(1953) 的 书 中 有 了 前述. 

现在 问题 回 到 随机 组 数 志 的 选择 , 让 前 面 讨 论 了 从 精度 出 发 , 我 们 乐 
意 取 廊 尽 可 能 地 大 , 然而 ， 增 加 大 就 意 昧 着 增加 计算 工作 量 与 成 本 ， 于 是 
的 最 佳 值 应 该 是 成 本 与 精度 的 平衡 ， 这 个 问题 自然 地 随 着 调查 的 不 同 
而 变化 . 
假如 在 某 种 场合 ， 调 查 的 自 的 仅仅 在 于 得 到 关于 总 体 某 指 标的 一 个 
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粗糙 概念 ， 那么 对 成 本 方面 的 考虑 可 能 要 超过 对 糖度 方面 的 考 赎 从 而 
对 上 的 最 佳 值 不 妨 取 小 一 些 。 另 一 方面 , 假如 重要 的 决策 主要 基于 调查 
的 结果 , 此 时 对 精度 的 要 求 就 要 超过 对 成 本 方面 的 考虑 , 从 而 一 般 应 取 较 
大 的 人 秆 . 


$9.3 Jackknife 方法 与 Bootstrap 方法 


9.3.1 Jaekknife 的 基本 思想 与 方法 
在 第 和 4 章 中 提 到 的 Qnenouille 的 Jaokknife 方法 原本 是 在 时 间 序 
烈 分 析 中 用 于 慎 计 量 的 纠偏 . 假如 日 的 信 计 量 为 多 (wy, za， …， go) 全 及， 
在 样本 中 舍弃 第 j 个 观察 值 后 用 同样 方式 得 到 9 的 佑 计量 为 61, 构造 所 
调 虚 拟 值 (Pseudovaluea). 
,ne (j=1, 2, + 2). (9.8) 
所 有 n 个 虚拟 值 的 平均 值 称 为 名 的 Jackknife 形式 ， 
久 - 寺 可 到 (9.9》 
如 果 召 ( 祭 ) 一 9+e/nla 与 mm 无 关 )， 那 末 容 易 验 证 二 为 8 的 无 偏 估 
计 . 俏 车 及 具有 关于 1/z 前 更 高 阶 偏 剧 , 我 们 可 以 用 高 阶 Jackknife 方 
法 处 理 . 
众所周知 , 抽 祥 推断 所 选择 的 统计 最 记 通常 包含 各 个 随机 观测 值 提 
供 的 关于 的 全 部 信息 ， 相 应 地 ,6 就 包 食 了 除去 第 了 个 观测 值 之 外 其 
他 随机 观测 值 提供 前 关于 日 的 信息 .9.8) 式 实质 上 昔 仿 了 这 样 一 个 事 
实 ， 虚拟 值 既 然 是 从 所 中 关于 9 的 信息 中 删除 防 ， 中 关于 6 药 信息 ， 
从 而 号 氢 值 可 以 大作 正平 仅仅 包含 互 ! 所 提供 的 关于 8 的 信息 ， 例如 对 
于 样本 均值 来 说， 容易 验证 ， 它 的 第 4 个 虚拟 值 愉 为 企 f， 假如 这 些 郊 ， 
是 互相 独立 的 随机 观测 值 ， 那 未 这 些 虚 氢 值 之 闻 自 然 就 存在 着 某 种 程度 
的 独立 性 . 基于 这 种 思想 , Tukey(1958) 在 一 篇 很 短 但 却 很 著名 的 摘要 
中 提出 了 如 下 狂想 
假如 全 为 基于 独立 同 分 布 变量 立 ,， 下 s。…。 互 , 的 关于 9 的 估 证 
量 , 相应 的 虚拟 慎 及 Jaekknite 估计 如 (9.8) 与 (9.9) 式 所 定义 的 , 那 末 
(DD 建 报 值 多 ,1 (j 一 1 入 …， 癌 可 以 近似 地 看 作为 独立 同 分 布 前 
蝴 机 变量 . . 
2) 基于 假设 (D ,统计 量 
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VD 20n_1), 《9.10) 
Vy 
式 中 一 > 表示 以 分 布 收敛 , 且 
Vn (9.11) 
多 一 二 后 














显然 ，Tukey 猜想 将 Jaokxnife 方法 的 纠偏 作用 扩展 到 用 以 构造 9 
欧 置 信 区 间 以 及 获取 亿 计 熙 的 方差 居 计 ， 队 此 Jackknife 方法 显示 出 其 
强盛 的 生命 力 . 近 几 十 年 来 , 不 少 统计 工作 者 围绕 着 何 种 情况 何 种 统计 
芋 满 足 Tukey 猜想 这 个 课 是 进行 了 大量 研究 ， 出 现 了 不 少 文献 4 参见 施 
锡 狂 (1987); Miller, R.G., Jr.The Jackknife, A Review,Biometrikay 
C974), 61, I~15)。 在 对 有 限 总 体 抽样 中 应 用 Jackknife 方法 也 许 首 
推 Durbin(1959)， 他 在 比 希 计 和 的 Jaekkmife 方差 估计 问题 上 效 竺 了 成 
功 . 


9.3.2 有 限 总 体 的 Jackknife 方差 估计 


在 育 限 总 体 应 用 中 , 我 们 常 采 用 Jackknife 的 更 一 般 的 形式 , 它 与 随 


机 组 方法 有 着 一 定 关系 
将 样本 分 成 个 随机 组 (假定 n= hrm, xm 为 整数 )， 这 些 组 当然 可 以 
分 为 独立 与 不 独立 的 两 种 情况 、 以 台 才 示 基 于 原 反 样 本 的 关于 8 的 估计 
基 ， 而 6。 则 表示 含 弃 第 a 组 观测 值 后 关于 6 的 具有 6 辕 样 结构 的 估计 
量 , 不 难得 到 虚拟 值 为 : 
所 一 中 一 (一 1 (a-l1, DB --, Eb), 
于 是 的 Jackicaife 形式 为 





v7(6) 一 全 一 写 /Eh (9.19) 
其 相应 的 方差 估计 为 ， 
vO)— 证 -8 D). (9.18) 


在 本 节 开 头 引 入 的 Jackknife 方法 无 非 是 一 n% 的 特殊 情况 ， 
以 下 讨论 有 限 总 体 Jackknife 方差 信 计 的 着 干 情况 ; 
一 、 效 加 简单 随机 抽样 
设 总 体 的 单元 为 了 ;， 了 2。，…， 了 x， 待 信 参数 为 总 体 均 信子 一 

翌 了 /假如 从 该 总 体 让 简单 随机 有 放 回 的 负 取 样本 gm，g，…， 引导 


束 8- 容 wm 是 了 的 无 食 估 计 , 其 方差 为 (9) 一 总 (了 一 了 )?/nN， 该 
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方差 通常 具有 无 偏 估计 
oD 一 访 @ 一 nn 一 3 (9.14) 
应 用 Quenouille 的 Jackknife 方法 , 若 n 一 rn, 令 56--3. 于 是 
高 9- 妥 一 (6 一 人) 训 5-ofh (9.16) 
其 中 了 < 表示 会 弃 第 组 现 测 值 后 得 到 的 样本 均值 ， 容 易 验证 
6 一 和 一 消 (9.16) 
-2 {9.17) 


当 且 仅 当 大 一 ny m 一 1 时， (9.14) 与 《9.17) 相 等 ， 但 是 不 难 发 现 如 下 事 
实 : 
BO} = VDD. (9.18》 
二 、 放 回 PPS 抽样 
假如 从 总 体 岂 进行 大 小 为 中 的 放 回 PPS 抽样 , 各 个 单元 每 次 被 抽 聊 
前 概率 为 《i 一 1 2 …， 站)， 对 总 体 总 和 的 通常 估计 及 其 估计 量 方差 
分 别 为 








PDD- 二 Wm) 


i 


(Y 表示 总 体 总 和 ), 对 于 六 (人 参 ), 有 无 偏 佑 计 : . 
oP Cv/ py, (9.19) 


RN 一 1) 季 
利用 Jackknife 方法 , 令 6 一 依 日 假定 % 一 om, 那么 











DD (9.20) 
其 中 多-。 是 会 弃 处 组 后 所 得 的 了 的 估计 量 . 方差 的 Jackinife 信 计 为 
1 BA Ds 
ee (9.21) 
其 中 记 是 第 a 个 虚拟 值 : 





B= 有 一 Ch 一 1) 依 _ ,. 
注意 到 全 与 均 为 % 个 随机 变量 的 平均 值 形式 、 凡 统 计量 具有 形式 如 
同 观 测 信 或 观测 值 的 函数 的 平均 值 , 那 末 只 要 na= rm, 此 时 不 管 开 的 取 值 
多 少 ， 容 易 验 证 该 统计 量 前 Jackknife 形式 必定 等 于 统计 量 本 淄 ， 这 是 
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Jaakkntfe 的 年 要 性 质 之 一 ,因而 , 在 本 例 中 有 了 全) 一 人 全 ,而 当 思 一 ”时 ， 
册 于 第 芋 个 虚拟 值 即 为 平均 值 中 第 个 变量 ， 因 此 虽然 有 如 (人 的 一 * 字 ) 
成 立 ， 

三 、 不 放 回 简单 随 宙 抽 样 

对 于 通常 的 简单 随机 抽样 , 即 不 放 回 随机 抽样 样本 均值 3-- 站 用 以 信 
计 总 体 均值 来 说 ， 它 的 Jackknife 形式 久 一 一 5 是 当然 的 事实 ,关键 在 
于 此 时 9 的 方差 具有 形式: 

VO = (~ S/n. 
其 中 一 %/WW， Se 上- 荆 襄 (了 一 了 )”，5 的 方差 的 无 偏 估计 通 常 隘 为 
ea 的 一 人 为 一念 ?- 
相应 的 Jackknife 方差 估计 为 
D2 6D, 
名 一 加 一 (bp 一 1)9-a ey 第 组 观测 值 的 平均 信 》。 
利用 第 二 章 的 计算 , 可 以 得 到 
BH{u(D)}— S/n, (9.29) 

它 与 了 (9) 之 同 存 在 偏差 /S/n, 因而 以 (全 不 是 六 (3) 的 无 偏 依 计 ， 这 是 
Jaekknife 方差 估计 在 有 、 无 放 回 两 种 情况 之 间 的 差别 、 事实 上 很 明显 ， 
这 里 的 差别 主要 在 于 待 估 方 差 六 ) 之 间 的 差别、 

在 不 放 回 简单 随机 抽样 时 , 如 果 有 限 总 体 校正 系数 不 能 忽略 , 那么 可 
以 采用 如 下 的 方差 无 偏 居 计 ， _ 

( 代 一 Fox 多. 

在 实用 中 , 为 了 达到 某 种 纠偏 的 目的 , 经 常 对 Jaekknife 估计 采 取 一 些小 
小 的 修整 工作 , 称 之 请 “ 懂 正 ?Jackknife, 在 本 节 中 , 将 修正 Jackicnife 的 
只 拟 人 定义 为 ， . 











亦 - 1 一 (2 一切 六 。 
其 中 Ges y+ AY. 
这 样 , 就 非但 有 
他- 误 2 记 





而 且 Blo) By 0) }= VB fs/m. 
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四 、 比 估计 

Jackjcnife 应 用 于 非 线 性 估计 量 的 方 其 估计 的 省 类 例子 中 ， 最 典型 
的 是 比 和 估计 ， 仍 如 需要 估计 两 个 总 体 总 和 之 比 BR 一 了 /及 , 设 依 、 全 分别 
为 工 . 马 的 知 计 , 那么 ,很 自然 地 采用 及 全 /全 以 估计 豆 。 相 应 地 有 


站 .一作 。/ 京 。 
于 是 得 到 Jackknife 虚拟 信 为 ， 
B= tf 1) A.,. {9.23) 
由 此 得 到 Quenouille 的 Jackknife 佑 计 形 式 为 ; 
古 -rr 名 色 . (9.24) 
对 于 掉 或 奶 的 Jackknife 方差 估计 刚 为 
wo 人 一 到 二 家 (BE)s, (9.25) 
wa) =— Ri (9.36) 


五 、 一 般 隧 况 

假 虹 有 工 个 子 总 体 (或 工 层 ), 第 万 个 子 总 体 (或 层 ) 中 含 zs 个 单元 ， 
有 从 该 子 总 体 ( 层 ) 中 有 (或 无 ) 效 回 地 随机 抽取 种 个 单元 (6 一 名 …, 五)， 
设 了 表示 该 子 总 体 ( 层 ) 的 均 信 , 而 加 表示 关于 FP 的 估计 量 ， 设 我 们 感 


兴趣 的 参数 具有 如 下 形式 : 
Og(F,, Po, , Pi 


假定 9(") 是 个 性 质 良 好 、 纪 园 光 潮 前 函数 ， 那 末 6 的 一 个 自然 估计 当然 


取 作 . 
B= gH 92, 7, DE). (9.27) 


如 果 9(*) 光 滑 到 使 它 至 少 在 了 = (了 了:， 了 也。。 .…， 允 ;5) 的 邻 域 内 具有 足够 
阶 连 续 导数 的 地 步 ， 而 加 为 样本 均值 因而 是 了 的 元 妨 信 计 ， 运 用 
Taylor 展开 的 方法 ; 
gy 92, es YI) Fs, Pe, 1 Pi) 
-记名 -了 D+ 二 台 人 2 PG PD) + 
=12P;, 14 OVOF,; 

(9.98) 
这 里 及 本 段 其 他 地 方 出 现 的 偏 导 数 均 在 点 (对,， 了 了 ,，，…， 了 也 ) 处 取 值 , 注 
意 到 各 总 体 ( 层 ) 的 抽样 是 互 为 独立 的 , 近似 地 有 

| Blyg (91, ga, £7, Bo)} 9(Fs, Po, », Po) 
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十 辫 工 . 2 5 Pa)? 


zi 





1 
9 Fr 于 惧 去 of 坦 问 
《让 四 扫 样 全 
PF sgl 0g 
0 7 + 全 和 
(不 放 回 抽样 情况 》， 
(9.39) 


其 中 2 为 第 万 子 总 体 (或 层 ) 内 的 方差 、 对 于 gf 及 ,加 ，…， 各) 的 方 凑 ， 
经 过 计算 可 以 近似 地 得 到 


Fr Go 3 0 3 人 = 襄 (- 各 -) 如 (未 一 有 7 
A=1 站 了 了 


(党 )( 吕 Ja 
高 三 ph (次 ey + 坟 ( 霜 a Ya) 人 党 ( 喇 ) 
( 放 回 抽样 情况 ); 
和 (其)+ 自 计 和 


( 读 吕 (Ew)》( 冲 秦 X( 芒 六) 
《9.80》 
































其 中 了 w 表示 第 个 子 总 体 ( 层 ) 中 第 6 个 单元 ， 
从 (9.30) 可 知 ，V{g( 间 ， 关 ，…，95)} 可 以近 似 地 表示 为 上 各 子 总 体 
( 层 ) 的 各 阶 矩 的 积 式 .、 对 于 这 些 矩 我 们 可 以 通过 多 种 办 法 得 到 它们 的 仿 
计 ， 然而 这 些 甜 前 的 系数 主要 包含 了 gC") 在 了 了 一 《Pi， 了 so，…, 了) 点 
的 各 脐 偏 导数 ， 如 果 用 (Vy，92，…，9z) 代 之 ， 则 将 会 引起 较 大 偏差 . 
Jackknife 提供 了 对 4( 如 ,名 ，…, 红 ) 方 差 前 估计 方法 , 而 不 必 直 接 涉 及 
96) 的 有 关 偏 导数 运算 ， 从 玉 人 9( 扩 ， 风 ， …， 如) 近似 式 的 各 项 来 看 , 对 
9L91 921“…， #5) 的 Jackknife 可 以 在 各 子 总 体 (或 层 ) 内 独立 地 进行 .从 


(9.29) 来 看 ,这样 做 的 结果 将 缩 厂 在 各 子 总 体 中 所 产生 的 去 阶 的 偏 集 ， 


共 古 使 整个 估计 量 的 偏 二 得 以 缩减 .有 具体 仇 法 如 下 : 
以 名 e-p 表示 在 第 记 个 子 总 体 ( 屋 ) 内 会 弃 第 5 个 观测 值 后 关于 了 ;的 
策 计 量 , 记 
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on SI Ys es Pas Ye Fhtls 3 (9.81) 
考 虚 到 共有 工 个 子 总 体 ( 房 ), 以 及 (9.29) 中 抽样 为 不 放 回 时 的 篇 倚 形 式 
而 需要 添 机 “修正” 因子, Jackknife 虚拟 值 定义 为 
oz (LWat Lg, *, yr) — LW ngow 
Ch 1, DB, 7, Ds d=1, Dp) {9.32) 
，_f(m 一 1)， 放 回 抽 祥 情况 ， 
其中 Le EE 丰收 加 抽样 傅 况 
因而 , 作为 这 些 虚 氢 值 的 平均 而 定义 的 在 关 9 (90 go … 95) 的 Jackknife 
形式 为 
Ys go YL) = pa Ba 《9.33) 
它 几 乎 是 9g( 了 ;1, 了 s,…, 了 z) 的 无 偏 估计， 现在 讨论 9(9a， 52,'…，95) 的 
Jackknife 方差 估计 ， 注意 到 (9.30) 展 示 了 刻 {9(31,…, gz 计 的 主要 成 
份 可 以 近似 地 分 解 为 各 子 总 体 ( 屋 ) 的 矩 的 线性 组 合 , 因此 定义 Jaekknife 
方差 估计 为 ， 





m0)— 名 Wh Spa 一 gw) (9.34) 





il rn 全 
其 中 go 二 咏 woo- 
a I 


为 了 计算 召 fv1( 六 }, 仅 需 研究 (9.34) 的 和 式 中 关于 每 一 个 天 的 期 望 值 ; 
了 3 过 一 ga } 
i (9.35) 
关于 gap 一 9 6 一 4 2 9) 在 了 一 (到 了 Pz) Taylor 展开 ， 抵 
整理 后 得 





(9.35) = 储 妆 二 Ey-n ~ Ps) 


I 





Ws 
Th 
BE) ser 

1 (Ee 

i ( 茹 》 Eyre — Pa) 

+ 入 ) G7 


-=m [( 效 -) Ge 
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+ 部 儿 航 )" 仿 训 守 站 ) 


x( 急 {gnc Ce 了) }} (9.36) 








由 于 各 子 总 体 ( 层 ) 的 抽样 相互 独立 , 因此 ， 人 这 计 着 包 各 
aag 让， 二 1 Bry 
训 去 ( 亲 ) 有 or 就 ) 澡 ) 

x [去 - 臣 Pw 一 了 六]( 玫 回 拓 样 情 况 )， 











pop | 吝 二 (党 =) 人 人 
十 误 二 六 瑞 ) 


Na mat YN — Bren +2) 
人 [ 训 六 ~- Yo?] 


(不 放 回 抽 祥 情况 》. 











(9.97》 


9.3.3 弃 4-Jackknife 方差 估计 


Jackknife 方法 可 以 用 于 统计 量 的 方差 居 计 , 主要 取决 于 : 

i， 所 构造 的 虚拟 什 有 一 定 的 散布 程度 . 

2， 虚 拟 值 的 散布 程度 恰好 朵 现 了 统计 量 本 身 离散 程度 的 主要 部 分 . 

如 果 上 述 两 点 不 成 立 ， 那 来 意味 着 Tukey 猜想 不 成 立 ， 利 用 
Jackknife 六 法 进行 方差 千 计 也 只 能 化 为 泡影 、 最 著名 的 反例 即 为 当 ” 
一 天 时 样本 中 位 数 的 情况 。 此 时 不 管 %n 有 多 大 ， 所 得 到 的 n% 个 碰 所 慎 至 
多 只 能 取 3 个 数值 。 也 就 是 说 , 这 些 碟 拟 值 相当 “凝聚 ”, 从 而 它们 不 能 刻 
划 样 本 中 位 数 本 身 的 离散 程度 . 

一 般 来 说 , Jacekknife 对 于 次 序 统计 和 量 的 “ 汉 谢 ”线性 组 合 是 有 将 的 . 
对 于 单纯 的 分 位 数 则 是 Jackknife 方法 的 一 个 致命 点 ， 而 社会 经 济 抽样 
调查 经 常 要 涉及 样本 分 位 数 , 例如 某 行业 职工 收入 的 中 位 数 , 人 口 报 样 泣 
查 中 关心 的 年 令 分 位 数 ， 某 产品 的 最 小 或 最 大 寿 合 ， 人体 尺寸 分 位 数 等 
等 ， 根据 前 面 的 分 析 , 要 解决 此 类 统计 量 的 方差 估计 问题 , 看 来 应 解决 品 
披 值 过 于 “ 恬 聚 ”的 现象 ， 那 么 最 好 的 办 法 就 是 将 每 次 舍弃 一 个 观测 偿 改 
上 成 会 弃 车 干 ( 设 为 d: 1<8<n) 观 测 值 。 这 些 食 弃 后 所 构成 的 统计 量 将 区 “ 
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原来 个 (会 弈 1 个 现 刘 值 情况 ) 增 加 到 (”) 个 ， 有 效 地 绥 解 了 “ 雍 聚 ” 程 


度 ， 在 这 种 想法 下 , 弃 9-Jackknife 方法 应 运 而 生 , 它 对 于 祥 本 分 位 数 的 
方差 怖 计 的 确 是 一 个 有 效 的 方法 

回 显 计 书 所 介绍 的 抽 祥 调查 的 基本 有 思想， 无 非 是 将 来 自 总 体 的 某 个 
链 机 样本 作为 该 总 体 的 一 个 缩影 , 若 以 这 个 “缩影 "作为 新 的 总 体 , 重复 原 
来 的 抽样 程序 与 估计 手 辟 ， 名 然 会 有 助 于 我 们 对 产 求 抽样 模型 的 进一步 
认识 ， 假 如 以 包 估计 总 体 参 数 9， 以 样本 (gi, 加， …, %) 为 新 的 总 体 再 
作 样 本 量 为 "(一 % 一 g) 的 不 旋回 抽样 (这 相当 于 从 原来 样本 中 舍弃 & 个 ) 
得 (多 拉 如) 以 记 一 页 时 绒 ，…, 咏 ) 作 为 名 的 模拟 ， 于 是 这 些 全 
的 离散 程度 恰好 提供 了 所 的 方差 的 一 定 信 息 ， 我 们 不 妨 以 最 常用 的 统 
计量 一 一 平均 值 加 以 阐述 . . 
某 有 限 总 体 芍 单元 记 作 了 了 4, 了 z,，…, Ys 抽 立 样本 记 作 gs, yo， …， 
各 我们 以 作为 了 的 结 计 .由 23.4.9 知 , 闻 (到) 一 全- 一 放 , 黄 中 5 


二 澡 (了 一 了 了) 而 了 一 my/ 入 ， 因 此 ,要 获知 了 (3), 我们 仅 需 对 S* 作 
出 适当 的 估计 。 利用 守 9-Jackknife 方法 ， 从 (gu gs，…,，g,) 中 不 放 回 
地 抽取 全 纺 ,…, 纺 那 末 玉 - 二 贺 寻 是 了 的 一 个 效 狼 . 由 公 式 (2.19》 
车 以 六, 才 示 在 弃 6-Jackknife 那样 的 再 抽样 模型 下 进行 的 方差 运算 , 那 


女 











天 GO 一 于 (全 -和 让 or 一 5 (9.38) 
通常 中 是 5 的 无 偏 信 计 , 由 (9.38) 式 , 我 们 可 以 用 
人 大) 


作为 8 的 估计 ， 玉 是 痉 6-Jacklenife 样本 的 均值 ， 因 此 它 的 可 能 值 有 
{)- ( 3) 从 而 对 (进行 精确 计算 得 


~ 
"0 ZF, (9.39) 


名 


这 里 ， 到 示 计 所 有 ( 个 可 能 的 组 全 (iu 和 
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内 此 8? 可 以 同 
Via Er (9.40) 
a7) 
人 

作为 估计 ， 这 就 是 及” 的 弃 @ Jaekknife 合计 , 由 此 也 就 容易 得 到 9 的 方 
差 估计 ， 

现在 再 考虑 一 般 和 的 统计 量 ， 应 当 指 出 ; 弃 4-Jackknife 方法 也 并 不 
是 对 所 有 的 统计 量 均 可 进行 方差 司 计 的 ， 由 数理 统计 知识 ， 有 些 统计 车 
如 近似 地 可 以 表达 为 观测 值 的 某 种 形式 的 均值 及 余 项 之 和 . 若 相 比 之 下 
余 项 相当 地 小 ， 那 末 该 统计 量 志 平 拥 有 均值 的 各 类 统计 性 质 〔 诸 如 相合 
性 、 渐 近 正 态 人 狂 等 )， 此 时 该 统计 量 的 方差 的 m 伴 即 可 采用 如 下 弈 人 
Jaokknife 估计 : | 


一 一 (人 一 六 ) 《9.41》 
的 ) 
人 
常用 的 样本 分 位 数 就 县 有 这 祥 的 性 质 
当 我 们 关心 茶 指 标的 分 位 点 时 ， 最 经 常 的 情况 是 该 指标 本 身 就 是 一 
个 连续 变量 ， 鲍 如 在 人 体 测量 中 人 的 各 部 位 尺寸 , 比如 身高 的 分 位 点 , 身 
高 本 身 是 个 连续 变量 ;或 者 指标 几乎 可 以 用 一 个 连续 分 布 近 似 地 遍 划 , 比 
如 关心 的 是 中 国人 年 齿 的 中 位 数 , 由 于 中 国人 口 的 众多 , 因此 年 龄 的 分 布 
兄 乎 可 以 活 成 是 一 个 连续 分 布 ， 基于 这 样 的 认识 ， 我 们 可 以 将 总 体 所 有 
的 单元 了 :Ya，，…， 了 > 看 成 为 来 自 连 续 分 布 F() 的 独立 同 分 布 观 测 
值 ,对 五 ( 引 可 以 作出 如 下 合乎 常理 的 假设 ; 
Gx》( 访 有 唯一 的 加 分 位 点 (0<p<1)， 其 密度 函数 (i) 有 有 办 
导数 , 且 f(&5)>>0. 
在 上 述 假 设 下 ， 我 们 用 不 放 回 抽样 所 得 的 样本 (gh，gs，,，，…, gr) 为 基 
底 白 作 的 经 验 分 布 函数 五 ,(#) 作 为 万 ( 区 的 一 个 近似 ，(gn ga, …, gm) 的 
天 分 位 数 可 记 作 Fs!(p), 按照 有 限 总 体 的 分 位 数 有 关 理 论 ， 当 ww 他 ->c6 
县 如 一 nr->co 时 ， ' 





















































/2 
(Cp) -gs 
vB 
其 中 5o 表示 (了 :了 2。，…， 卫 由 的 思 分 位 数 。 利用 (9.49) 式 人 们 不 难 


>NCO, 1), (9.42) 
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建立 én 的 置信 区 间 ， 问 题 在 于 (二 一 志 ) ”Fx*(p) 的 浙 近 方差 为 
(1 一)/1?CE。)， 共 中 ($s) 常 党 是 未 知 的 ,因此 (9.49) 式 在 实际 应 用 中 
类 去 意义 ， 而 利用 蛮 g-Jaoldkenife 将 出 色 地 解决 这 个 问题 ， 设 (9 风 
(一 四 表示 来 自 (gu oo， 加) 的 不 放 回 料 本 , 我 们 以 了”(p) 
表示 ( 近 仿 ,…， 纺 ) 的 P 分 位 数 ， 利 用 Shik1991) 的 缚 果 ， 我 们 可 以 证 
得 如 下 定理 ; 

定理 9.4 假如 刀 ( 芍 满 尾 候 设 (*), 且 令 r [mun], 其 中 9] 表 示 。 的 
最 小 整数 部 分 , 目 0<w<I， 那 么 , 当 n->oo 时 ,有 





Yr #1 -1 2 Pll—p) 
了 站 EAPr Cp) Fe Cp)} > UE) 8 (9.48) 
人 | ; 
将 (9.49) 与 (<9.48) 相 结合 , 则 在 实际 应 用 中 就 具有 一 定 的 价值 . 

注 工 利用 弃 94-Jackknife 方法 解决 方 头 估计 在 理论 上 有 其 成 功 之 


如 ,但 在 实 耻 中 产生 的 席 是 公式 中 求 和 号 吕 , 后 面 的 项 数 有 (”) 个 , 当 
多 比较 大 时 ， ( ”简直 是 个 天 文 数字， 我 们 不 可 能 将 它们 全 部 一 一 列 出 并 
进行 计算 , 通常 采用 的 方法 是 从 ( ”) 个 恕 值 中 随机 地 任 取 石 个 , 也 就 是 
说 , 从 (gy ge …; 纺 ) 中 不 放 回 地 选取 ( 仿 , 纺 ,…, YD 以 构成 如 的 步骤 重复 
如 次 ,得 祭 ， 名，…, 人 我 们 用 -页 次 (名 一 纪 )” 营 代 呆 Zz (入 一 
人 

6.)*， 以 上 重复 再 抽样 步 难 可 以 在 计算 机 上 实现 ， 午 拟 次 数 的 大 小 直 
接 关系 到 方差 估计 的 精度 , B 越 大 , 风情 计 自 然 越 精 确 , 但 如 过 大 就 会 失 
去 神 拟 的 意义 。 模拟 次 数 五 究竟 取 多 大 最 为 合适 呢 ? 这 是 个 尚未 彻底 解 
决 的 问题 。， 许多 统计 工作 者 从 各 种 不 同 的 角度 要 求 出 发 进行 了 探讨 ， 据 
轴 内 外 的 一 些 应 用 实践 经 验 表明 ， 如 果 仅 考 忠 方差 信 计 ， 一 般 地 ,五 大 约 
可 取 在 200~1000 次 之 间 为 宜 ， 

和 注 2 假如 加 为 正 整 数 , 且 恰 有 xm 一 %, 著 将 (zh) gp，…, 名) 随机 
分 为 地 给, 每 组 本 个 单元 ， 则 - 

《oa Sr om » 


在 注 寺 中 记述 及 的 模拟 由, 我 们 到 -mn， an 二) 西 在 ( 人 
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权 取 这 样 的 志 个 车: 有 (or ga gm (6 一 1 3，…, 下 ,此 时 
人 过 人 的 1 下 六 _ 3 
Ee i (9.44) 
不 难看 出 , 这 恰 为 和 的 随机 组 方差 估计 、 因此 随机 组 方差 估计 可 以 看 作 
为 弃 4 Jackknife 方差 估计 时 一 种 特定 的 模拟， 


昌 .3,4 ”Bootstrap 方差 和 估计 

在 上 一 段 中 ， 我 们 把 从 样本 观测 值 (yu yz, …， 纪 ) 中 不 放 回 地 朱 
取信， 史 ，…， 的 ) 称 为 厅 9( 一 mn 一 7)-Jackknife 抽样 。 如果 将 这 种 再 抽 
样 的 方式 改 为 放 加 抽样 ， 则 称 从 (gy，gs，…， 角 ) 中 放 回 抽取 的 ( 咏 , 坊 ， 
~ 饥 ) 为 Bootstrap 抽样 ， 俩 尾 在 形式 上 的 差别 主要 是 再 抽样 过 程 中 的 
放 园 与 否 ， 众所周知, 当 nn 相当 大 时 ， 从 概率 论 角 府 米 看， 这 种 区 别 有 点 
最 得 微不足道 、 因此 使 人 们 意识 到 利用 Bootstrap 抽样 也 能 对 复杂 样本 
方差 估计 作出 贡献 ， 具 体 办 法 如 下 ; 

基于 Bootstrap 样本 (gyi, 更, …， 纺 ), 依 后 的 结构 构造 统计 量 








Bn 
重复 Bootstrap 抽样 B 次 , 相应 得 到 or bz be 于 是 
Ca pA A (9.45) 








提供 了 玉 (5。) 的 合计 ， 通 常 如 果 将 m 政 为 注意 由 于 这 里 是 放 回 抽样 
故 mp 一 % 十 可 行 的 , 这 一 点 与 Jaekknife 抽 社 有 所 不 同 。)》 那么 
va(9,) 一 卫视 (的 一 六)? (9.46) 
提供 了 统计 量 玉 的 方差 合计 . 
Bootstrap 方法 的 基本 思想 是 ， 上 既然 经 验 分 布 函 数 是 总 体 分 布 的 良 
好 拟 合 ， 那 末 来 自 总 体 分 布 的 随机 观测 值 的 概率 习性 可 以 用 经 验 分 布 函 
数 的 相应 统计 量 的 概率 习性 来 近似 地 刻 划 ， 而 后 岩 蚌 可 以 通过 计算 机 并 
拟 甚 至 直接 计算 而 得 到 ，Bootstrap 抽样 由 于 采用 放 回 方式 , 因此 只 要 再 
抽样 样本 量 和 m 通 当 大 (最 好 mm 一 ")， 对 分 位 数 这 样 的 统计 量 来 说 ， 人 的 
JBootstrap 模拟 值 纺 ( 或 多 )( 可 能 值 达 到 mr 或 we 个 ) 不 会 发 生 过 于 “ 凝 
率 * 的 现象 , 也 就 是 说 , 只 要 m( 及 nn) 充分 大 , 分 位 数 的 Bootatrap 方差 信 
计 将 获得 成 功 ， 它 不 像 Jaekknife 那样 要 求 r、9 同时 充分 天， 统计 学 
家 认为 Bootstrap 方法 优 于 Jaokknife 方 法 的 一 个 强 有 力 欧 依据 是 
Bootetrap 适用 于 样本 分 位 数 ， 而 莽 {-Jackknife( 即 原始 的 Jackknife) 
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不 适用 于 分 位 数 ， 但 应 当 指 出 ， 在 抽样 调查 中 ， 最 经 常用 的 是 从 有 限 总 
剧 中 不 放 回 地 抽取 m 个 样本 单元 ， 人 队 模 所 的 钾 度 出 发 ， 人们 会 发 现 ， 
Jackknife 的 再 抽样 方式 比 起 Bootsirap 再 抽样 方式 是 得 更 切合 实际 模 
型 ， 因 此 在 实用 中 ， 如 果 总 体 是 连续 分 布 ， 则 许多 工作 者 偏 于 愿意 使 用 
Bootstrap 法 ; 而 若 过 到 的 是 有 限 总 体 的 不 放 回 抽样 , 则 不 少 工作 者 偏 于 
采用 Jaekknife 法 .， 注 两 种 再 抽样 方法 到 底 哪 种 好 ? 不 少 统 计 学 家 试图 
进行 比较 , 但 尚未 见 到 全 面 的 满意 的 结果 . 

应 该 强调 的 是 ， 这 丙种 方法 都 有 其 各 自 适用 的 一 定局 限 的 范围 ， 最 
能 说 明 间 题 的 是 在 抽样 调查 中 人 们 常 关心 的 最 大 (或 最 小 ) 次 序 统 计量 ， 
它 科 “几乎 ”都 不 能 成 功 《我 们 用 “几乎 ”两 字 是 指 在 极 少数 场合 有 成 功 的 
可 能 ), 其 原因 在 直观 上 是 不 难 理解 的 : 用 样本 的 最 大 值 yw 作为 总 体 景 大 
值 了 cw 的 估计 ,本 身 存在 一 个 负 偏差 , 而 再 抽样 的 最 大 值 与 样本 的 最 大 值 
之 间 又 增加 了 一 个 负 偏差 , 这 样 , 负 偏 差 的 累积 影响 模型 的 拟 合 程度 ， 而 
在 关于 观测 值 的 光滑 的 统计 及 情况 中 , 很 少 会 出 现 这 种 单 向 的 偏差 累积 ， 
因此 对 于 后 者 垩 抽样 模拟 常常 会 取得 成 功 . 


9.3.5 adr 的 选取 及 模拟 次 数 台 的 确定 


在 弃 g-Jackknife 方法 中 ， 仅 假定 了 7 与 < 都 应 随 n 增 大 而 充分 地 
大 , 究竟 7.4 之 间 成 何 种 比例 为 家 ?这 是 个 有 趣 的 问题 ， Wu(1991) 从 统 
计量 分 布 函 数 的 拟 合 , 探索 过 这 个 问题 
由 于 有 限 总 体 单元 数 W 相当 大 , 有 时 我 们 不 妨 将 它 视 作为 某 连 续 母 
体 如 ( 吉 ; 总 体 均值 相当 于 了 了 (的 中 心 4 一 一 我 们 所 关心 的 参数 , 记 总 体 
标准 差 为 oc， 通常 用 样本 均值 了 估计 ,由 于 总 体 被 视 作 连 继母 体 刀 ()， 
因此 抽样 观测 值 可 视 作 独立 同 务 布 变 量 ,此 时 按照 分布 的 Bdgoworth 
展开 , 容易 得 到 
HWP {YE i} 


















































B+ LB EA): +ol 2), (9.47) 

和 no A 
其 中 甸 ( 四 .$B(D 分 别 囊 示 标 准 正 态 变 量 的 分 布 函 数 及 密度 函数 ,对 于 茎 & 
~Jackknife 抽样 , 如 果 在 这 个 模型 下 进行 的 概率 运算 记 作 卫 , 的 话 , 那 末 
根据 不 放 回 简单 随机 抽样 样本 均值 分 布 的 Bdgowor 记 展开， 可 以 得 到 


(以 了 雪 示 再 抽样 时 的 抽样 比 工 ) 
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Or PC 让 于 让 <:} 
i 一 





ny 
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+o(). (9.48) 
比较 五 (与 7(), 并 假定 也 (人 具有 尼 够 阶 逢 , 显然 有 
i) > BY 
1 





训 @-D: 一 2 














nC—1 
__ /1 
为 了 使 IO-7cl-o( 到) 
成 立 , 当 且 仅 当 
1—9 5—~5 . 
1 让 > EE 0.2764. (9.49) 


这 就 是 说 ， 对 于 样本 均值 ， 当 每 次 会 弃 样 本 单元 数 的 723.36%% 时 ， 
Jackknife 分 布 拟 合 将 达到 理想 程度 . 一 般 地 可 适用 于 弃 4-Jackknife 
的 统计 量 常 可 以 近似 地 表达 为 独立 同 分 布 变量 的 均值 ， 因 此 这 个 结论 对 
许多 统计 量 也 有 参考 价值 

但 是 , 如 果 面 临 的 问题 是 只 考虑 利用 再 抽样 方法 以 解决 方差 估 计 , 那 
人 么 为 了 分 布 氢 合 最 佳 选择 的 沁 & 未 必 能 使 方差 估计 达到 理想 的 精度 回 
想 Jackknife 方法 本 身 , 之 所 以 将 每 次 舍弃 工 个 观测 人 增加 到 含 弃 双 个 ， 
无 非 是 将 和 的 可 能 值 从 史 个 增加 到 ( ” + 从 而 押解 了 “凝聚 ”程度 而 体 
现 册 了 统计 量 的 “离散 ”程度 .由 此 启发 , 一 个 相当 自然 的 想法 是 ; 是 不 是 
这 种 可 能 值 的 个 数 越 多 ， 峙 5 本 身 的 高 散 程 度 就 会 体现 笠 更 加 清晰 昵 ? 
倘若 这 种 想法 对 的 话 ， 那 么 不 妨 假 设 ? 为 偶数 ， 了 下 时 我 们 只 需 取 7 一 G 一 


如 即 可 达到 目的 ， 事实 上 ， 这 种 想法 对 某 些 统计 量 来 说 ,不失为 是 一 种 


好 的 选择 ,尤其 是 对 样本 中 位 数 等 那些 重要 前 统计 重 , 在 实际 应 用 中 证 实 
了 该 想法 的 可 行 性 与 有 效 狂 . 具体 的 论述 、 数 据 的 模拟 以 及 与 其 他 再 扫 
拌 方法 的 比较 ,我们 将 在 89.4 半 样 本 方法 中 给 出 详尽 的 讨论 . 
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在 再 抽样 模 毛 过 程 中 , 完 竟 需 要 多 少 次 计算 机 重复 ?我 们 在 前 面 曾 提 
到 ， 用 于 方差 估计 的 模拟 次 数 召 大 约 需 3200 一 1000 次 左右 ， 但 这 仅仅 是 
任 借 经 验 与 实 获 所 提出 的 建议 ， 从 理论 上 来 说 , B= oo 当然 是 最 佳 选择 ， 
然而 这 在 实践 中 毫 无 意义 储 共 能 保证 一 定 前 精度 ,那么 B 值 取得 越 小 
越 好 我们 仅 考虑 Bootstrap 方差 佑 计 的 情况 (在 该 问题 上 ，Jacekknife 
与 Bootstrap 几乎 无 甚 差 异 ), Pfron(1987) 从 变异 系数 的 角度 出 发 研究 
了 了 号 的 选择 . 

引用 了 2fron 的 记号 , 以 他 表示 台 的 Bootetrap 方差 估计 , 在 给 定 抽 
样 g= Cg so 9;) 的 条 件 下 ， 标 准 差 的 Bootstrap 估计 Sn 具有 如 下 
条 件 的 变异 系数 





ovfes'y} ~ [Si ], (9.50) 


潜 中 表示 6 的 Bootstrap 分 布 的 峰 态 ， 在 观测 向 量 y 给 定 的 情况 下 ， 
当 好->co 时 ，OCv{6aly}->0, 并 且 5s 收 伍 于 标准 养 的 理想 的 Bootstrap 
估计。 当然 , 即使 在 B>co 时 得 到 的 与 真正 的 标准 差 0 一 BDo{ 引 仍 
有 所 差异 ， 令 Ov(6) 为 6 的 变异 系数 , 那 末 对 gy 所 有 可 能 的 实现 向 量 取 
平均 , 就 可 以 得 到 Ge 的 无 条 件 的 Ov, 近似 地 表示 为 ; 

Ov(Gs) ~ | Ov2(6) + (9.51) 
OvC6) 有 时 可 以 在 理论 上 计算 或 近似 地 得 到 ， 例 如， 车 n 一 20, 6 一 于， 
天, 必 - NWC0, 1), 那么 Ov(6) 必 (1/40)42=0.16， 根据 关系 式 (9.51)， 
我 们 有 可 能 在 Bootstrap 方差 估计 时 适当 选择 如。 以 一 个 简单 的 例子 说 
明之 , 假定 如 8- 0, 我 们 对 不 同 数值 的 与 OvC6) 来 观察 0v(4s)， 具 体 


数据 见 表 9.1. 
表 9.1 显示 , 在 如 -0 假定 下 当 Cv(6) 取 0.10 以 上 的 值 时 ，B= 


素 9.1 标准 差 的 Bootstrap 估计 5s 的 变异 系数 其 中 假定 P78 一 
B 














25 Ey 100 200 co 
Crid) 0.25 0.29 0.27 0.26 0D.25 0.25 
0.20 0.24 0.22 90.2 0.21 0.20 
0.15 0.21 0.18 0.17 0.16 0.15 
9.10 O17 O.14 0.12 O11 0.10 
v.05 0.15 O11 0.08 0.07 0.05 
一 -一 一 


员 8.3 Jackknife 方法 与 Bootstrap 方法 3 


100 以 上 所 对 应 的 Qv(5s) 无 多 大 改变 , 因此 在 这 种 场合 下 , 妃 取 100 或 
200 已 经 足够 ， 在 实际 操作 时 , 当 模拟 次 数 到 达 或 超过 某 禾 程 度 时， 相应 
的 组 数值 进入 “稳定 状态， 也 就 是 说 , 继续 增 大 8 值 也 不 能 使 3 发 生 
较 大 变化 , 这 个 事实 已 经 暗示 了 模拟 次 数 召 应 该 到 多 人 为 宜 . 

合计 盘 的 方差 估计 的 另 一 个 目的 是 获取 待 估 参 数 的 置信 区 间 。 利 用 
再 抽样 方法 求 置 信 区 滞 时 并 不 需要 将 信 计 量 的 方差 直接 计算 出 来 ， 因 为 
根据 再 抽样 理论 , 我 们 可 以 在 计算 机 上 直接 模拟 出 ( 永 一 9) 的 分 布 ， 现 记 
页 的 再 抽样 模 执 为 全 (i 一 2, …, 加。 这 里 表示 第 5 次 模拟)， 那 末 
( 侧 一 及 ，( 锚 一 及 ，…。( 丝 一 信 这 B 个 模拟 值 构成 的 经 验 分 布 函 数 实质 
土 就 是 (8, 一 9) 的 分 布 函 数 ( 记 为 G。) 的 再 抽样 模拟 , 将 其 记 作 GCs， 当 了 B 
一 co 时 , Ghp>GCGn 的 真正 再 抽样 估计 )， 我 们 只 需要 将 G%a 的 分 位 点 
作为 Ge 的 相应 分 位 点 的 近似 替代 , 就 可 以 得 到 8 的 近似 置信 区间 ， 例 如 
将 Gs 的 2.5% 分 位 点 41 与 97.5 和 % 分 位 点 4s 视 作 G。 相应 的 分 位 点 ， 
那么 { 包 一 4 抽 十 49 就 可 以 近似 地 作为 9 的 95% 置信 区 闻 、 这 种 利 
用 计算 机 获得 置信 区 间 的 方法 为 抽样 调查 的 数据 处 理 带 来 了 许多 方便 ， 
同 题 在 于 这 里 的 模拟 次 数 瑟 又 如 何 确定 呢 ? 它 的 解决 与 前 面 所 述 的 方差 
估计 的 恕 的 选择 有 记 区 别 ， 不 少 学 者 对 此 曾 有 所 探讨 .Shi.Wu 与 Chen 
(1990) 建立 了 有 限 总 体 分 位 点 过 程 的 Bahadur 表示 式 , 从 而 得 到 了 关于 
互 的 如 下 关系 式 ; 





(log iog B/B)v2 一 e 卫 ”对 某 些 常数 e>0， (9.52) 
其 中 
= dup Gms) — Go) (9.53) 





表示 @G 与 它 欧 再 抽样 估计 Ge 之 间 的 距离 。 关系 式 (9.59) 提 出 了 模拟 
次 数 呈 应 与 原始 祥 本 大 小 以 及 分 布 的 再 抽样 估计 精度 有 密切 的 关 系 . 
假如 二 较 大 , 由 (9. 蛤 ) 式 可 看 出 可 以 选 小 一 些 的 吾 , 直观 告诉 我 们 ; 当 分 
布 的 再 抽 祥 估计 的 猜 度 比较 粗粮 时 ， 大 量 地 做 计算 机 模拟 无 法 强 补 这 个 
缺陷 .相反 地 , 如 果 ti 比较 小 , 即 再 抽 桩 入 计 的 精度 令 人 满意 的 话 , 我们 
应 当 增 大 瑟 , 否则 ， 由 于 计算 机 模拟 次 数 少 ， 而 带 来 的 偏 倚 将 使 再 抽样 方 
法 提供 的 精度 蒙受 报 类 , 这 是 十 分 可 惜 的 事情 . 

无 论 是 方差 和信 计 或 是 置信 区 闻 ， 开 对 它们 提供 一 个 确切 的 B 值 是 儿 
平 不 可 能 的 .我 们 只 能 指出 模拟 次 数 的 趋向 或 有 关 它 的 阶 数 ， 

Jackknife 与 Bootstrap 方法 对 于 样本 均值 具有 令 估 满意 的 效果 . 例 
如 这 1-Jackknife 作用 于 g， 则 估计 量 形式 保持 不 变 , 而 Jackknife 方差 
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糙 计 与 通常 采用 公式 也 一 致 。 因此 , 为 说 明 再 抽样 用 于 估 诗 统计 量 方差 
的 效应 ， 常 常 采用 非 线 性 统计 量 作为 例子 具体 方法 是 从 一 个 已 知 的 总 
体 (连续 母体 或 有 限 总 体 ) 中 随机 放 回 (或 不 放 回 ) 地 抽取 交 个 样本 ， 构 造 
所 要 求 的 统计 量 ， 此 时 统计 量 的 方差 是 可 以 计算 得 到 的 对 于 该 统计 量 
实施 再 抽 祥 技 巧 可 以 简 到 它 的 方差 估计 ， 然 后 与 已 知 的 方差 比较 .。 使 用 
慷 矢 及 均 方 误差 , 以 评估 再 抽样 方法 前 效应 . 

Jackknife 与 Bootatrap 方差 村 计 对 于 样本 分 位 数 上 共有 较 理 想 的 效 
炽 , 我 们 所 作 的 有 关中 位 数 和 的 模拟 结果 将 在 下 节 闪 样本 估计 中 一 超 列 出 ， 


89.4 半 样 本 方法 


9.4.1 基本 思想 与 方法 


在 随机 组 方法 中 , 最 简单 的 化 法 是 将 样本 分 为 两 组 , 不 妨 假设 m 为 偶 
数 ; 1 则 美 于 后 的 随机 组 方差 估计 为 : 


寺 {Bg C9 一生 ]? 寺 [Cya sy 9 一 的 可 。 





看 
将 于 个 拌 本 单元 分 为 两 组 ， 类 有 (i 车 任 取 一 种 代入 上 述 公 式 ， 
2 
作为 方差 司 计 量 , 就 存在 由 子 偶然 性 而 影响 精度 的 可 能 .。 为 克服 由 这 种 
nm 
个 然 生 带 来 的 麻烦 ， 最 的 方法 二 将 所 有 | > 种 丁 能久 统 人 入 公式 然后 


ua 
2 
对 所 得 到 的 结果 加 以 平均 , 利用 公式 则 可 表示 为 
i 
(a) DC (9.54) 
即 为 忆 的 弃 叶 -Jacldcnife 方 状 佑 计量。 前 面 的 分 析 表 明 ， 直 观 上 它 有 


可 能 使 方差 估计 达到 较 佳 的 效果 ， 注 意 到 在 随机 组 方法 及 Jackknife 方 
法 的 公式 中 , 可 以 将 凡人 民 之 以 全 体 名 的 平均 ， 而 使 方差 估计 政变 甚 微 , 


于 是 (9.54) 式 成 为 ; 


Wt ~ mil sa 
(人 za ey ws] DA oy we 
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三 
-( 引 ZE" A Wy Wa}, (9.55) 
本) 2 





其 中 忆 " 表 示 对 所 有 ((zz，…， 人 3)，(j， …， 襄 )) 这 样 的 配对 求 和 ， 而 
(和 候 )，( 因 和 震 ) 均 为 (1 3, …, 1) 中 的 容量 为 和 的 子 集 ， 公 


式 (9.56) 可 以 用 一 个 大 家 相当 熟悉 的 简单 事实 加 以 疤 述 ; 
设 和 m,…，%n 为 来 自 某 总 体 的 桩 本 《通过 放 回 或 不 放 癌 抽样 )， 设 该 


总 体 的 方差 为 x?， 它 前 无 偏 估 计 呈 一 一 工 _ 训 (m4 一 5) se 可 以 改写 成 


ma 一 土 各 














1 Es a 1 1 加 

32 一 a7 雇 (ar 一生 )2 一 EC 疡 可 (ee ED (9.56) 
这 种 表示 式 了 明确 地 告诉 我 们 ， 随机 观测 外 互 相 之 间 差 异 的 平方 平均 值 实 
际 上 在 一 定 程 讼 上 提供 了 这 些 观测 值 来 自 总 体 的 方差 的 信息 ， 而 (9.55) 
与 (9.56) 式 在 形式 上 的 一 致 性 也 明确 地 说 明了 (9, 抽 ) 的 确 为 我 们 提供 了 
6 方差 的 信息 . 然而 用 (9.55) 式 右边 的 公式 进行 运算 相当 繁复， 而 且 
三 " 内 包 合 着 那么 多 项 中 出 现 的 某 些 配 对 (各,，…， 襄 ) 与 (所, 之 癌 
共有 元 素 过 多 的 现象 ， 直观 告诉 我 们 ; 这 种 现象 的 过 多 出 现 有 可 能 影响 关 
于 3 的 方差 估计 的 精确 性 ， 顺 乎 自然 的 想法 是 , 为 了 减少 运算 量 , 我 们 


要 设法 减少 " 内 的 项 数 ， 而 为 了 提高 精度 ， 册 希望 在 2* 内 会 弈 的 项 应 
是 那些 共有 元 素 较 多 的 这 对 , 从 这 个 角度 出 发 , 仅 留 下 那些 没有 共有 元 素 
欧 配 对 ， 用 以 进行 信 计 计算 也 许 是 最 理想 的 方法 ， 这 就 引出 了 关于 
方差 的 所 谓 半 祥 本 估计 ， 
1 分 
Drs(b) = nv EO — 0 (9.57) 
?全 
到 
在 (9.57) 式 中 用 名、 扣 分 别 表示 依赖 于 各 一 半 的 样本 而 构造 的 统 计量. 
鉴于 我 们 所 关心 的 是 统计 量 方 演 的 ” 伴 , 即 wo 六 (六 ) 全 o? 十 吾 ， 其 中 忌 为 
无 穷 小 晶 , 因此 其 主体 部 分 o 的 半 样 本 估计 为 : 
Ea ce 
一 弘 )” (9.58} 


人 























a 
as 一 
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部 (9. 三 ) 式 乘 上 要 。 车 中 为 奇数 ,当然 无 法 用 (9.58) 式 ， 这 时 ， 我 们 取 
一 人 十 防 /3， GCn 一 人 )/9. 将 (9.54) 稍 作 容 广 并 仍 称 之 为 半 样 本 合计 : 
D+D sc0, Bye. (9.59) 


| 全 十 工 | 
3 





全 2 
CHs 一 


我 们 雨 遍 与 急 玫 示 这 两 个 统计 量 不 依赖 于 共有 样本 .由 于 ?相当 大 ， 
(9.59) 与 (9.58) 或 几乎 没有 差别 , 因此 为 简 俩 起 见 , 我 们 只 讨论 % 为 侦 数 
的 情况 . 


9.4.2 半 样 本 方差 估计 性 质 

本 段 主要 考虑 非 线性 统计 量 半 样 水 方 党 估计 的 偏 性 ， 我 们 总 是 假设 
总 体 元 素 个 数 W 充分 大 (其 实 这 就 是 我 们 进行 儿 样 调查 而 不 进行 普查 的 
重要 理由 之 一 )、 这 样 的 抽样 方法 是 否 为 放 回 的 , 差异 不 大 ， 因 此 为 了 使 
计算 方便 , 是 健 问题 趋 于 简单 起 见 ， 在 本 段 中 仅 考虑 (os 92，…, 功 ) 为 独 
立 同 分 布 随机 观测 值 、 有 如 下 篇 单 的 结论 : 

定理 9.5 当 m 为 偶数 时 ， 

Bot 村 VO). 《9.60) 
证 明 ”利用 (gs, gm …, y,) 的 独立 同 分 布 性 , 易 知 房 与 名 互 为 独立 


的 , 赦 














— TO, BHO) TE 
加 (O90) 一 全 V6 ). 


这 个 定理 的 意义 并 不 仅仅 在 于 半 样 本 信 计 量 是 县 六 (8》 的 无 偏 佑 
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了 下， 卫 fron 与 Btein(1978) 以 及 Bhargava (1983) 都 曾 研 究 过 Jackknife 
方差 估计 的 偏 性 .。 他 们 发 现在 一 般 的 情况 ，Jackknife 方差 佑 计 具 有 正 
偏 倚 。 因 此 关于 合计 本 身 以 及 由 此 俩 计 所 提供 的 置信 区 间 也 趋 于 保守 . 
半 样 本 方差 估计 在 偏 性 问题 上 的 确 可 能 优 于 其 他 再 抽样 方法 ， 下 面 我 们 
用 Monte Carlo 的 结果 进行 一 些 比较 ， 

所 介绍 的 几 种 再 抽样 方差 估计 方法 对 于 样本 均值 几乎 具有 相同 的 效 
果 ， 对 于 观测 值 的 光滑 函数 的 模拟 结果 也 儿 乎 是 相同 的 ， Shao 与 Shi 
《1989) 对 非 光滑 的 中 位 数 作 了 比较 ， 指 定 总 体 所 拟 合 的 分 布 分 别 为 正 





























态 .Oanehy 指数 分 布 。 利 用 计算 机 模拟 计算 样本 中 位 数 的 方差 估计 的 偏 
摘 与 均 方 误差 平方 根 CV NSE ), 具体 结果 归纳 如 表 9.2 所 示 ， 
表 和 .2 样本 中 位 数 方 差 to 中 的 再 抽样 佑 计 和 交 偏 简 与 VMS 百 
人 新 布 杭 态 
正 态 Cavchy | 指教 
?一 巨 -2 名 2 一 二 .93 | 2 一 6-25 
灌 计 敌 偏 位 | TS 偏 告 | ~ mn| 访 倚 Nea 
羊 样 本 (B=100) —0.35.| 3.42 | 0.76 | 8.75 | 0.00 | 4.16 
Jrckknife, d=n2, 百 一 100 0.57 4.00 1.¢9 4.63 1.05 5.12 
Jackknife, d=%/2, 吾 一 256 0,56 号 -g 1.43 4.03 21.01 4.91 
Bootstrap B=100 1.00 4.35 2.10 5.07 工 -和 7 5.43 
Bootstrap B=256 0.93 4,14 ] .84 .43 1.47 5.89 





Jackknifo, a—%/4, B=256 工 -37 86.14 一 一 一 一 


注 : 形 中 正 态 分 布 为 (8.5，22)，Cauchy 分 布 具 中 位 数 2.5 及 形状 参数 了， 指数 分 
布 共 23.5. 中 位 数 1.73. 

表 9.2 显示 ; 无 论 从 偏 倚 还 是 从 MMBE 的 角度 而 论 ， 半 样本 方差 稍 
计 优 于 Jackknife 与 Bootistrap 方差 估计 . 如 果 只 局 限于 Jackknife 方 


法 的 话 ， 一 般 弃 守 优 于 怠 的 其 他 选择 ， 对 其 他 统计 量 的 模拟 也 显示 卫 妆 
似 的 结论 ， 不 进 记 当 指出 的 是 ， 半 样本 方差 估计 的 这 种 优势 似乎 对 于 
位 数 或 一 些 分 位 数 的 模拟 结果 尤为 显 落 . 

9.4.3 ”平衡 半 样 本 估计 


一 、 总 体 均值 分 层 铀 样 的 估计 . 
假如 需要 估计 总 体 均 值 了 ,共有 五 层 ， 每 层 的 单元 数 设 为 Ws(h 一 1， 


3 …, 本 ,下 一 复职 从 每 一 层 中 随机 放 回 地 抽取 两 个 六 本 ， 记 获得 的 








二 
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2 工 个 样本 单元 提供 了 了 的 一 个 分 层 佑 计量， 
B= 襄 WiD, 
其 中 瑟 ; 一 NMAN, 94 一 (ym 十 Ye)/2， 上 鉴于 各 层 之 间 的 抽样 是 独立 进行 
的 , 因此 六 (9s:) 的 入 计 为 
(Bo Wim /4. (9.61》 
队 每 层 的 两 个 抽样 中 选择 一 个 样本 ， 则 构成 所 谓 半 样本 《gas，sany …， 
yi) (人 2，…， iz 取 1 或 罗 ， 这 样 的 可 能 数 共 有 2 种， 相应 于 第 a 弓 
半 样 本 (a 一 1, 2, …, 97) 的 也 估计 量 为 








Geo BE WilBpscgnt + Byeotne)» C9.62) 
. _ [1，gmr 被 选 入 第 a 组 半 样 本 ; 
其 中 Shia— 0， 鞭 他 . 


Shou 一 工 一 5xla。 
容易 验证 
2 an 五 
oa/ 一 DD Ws(6naghrt Boogho) /2 
1 三 站 


百 一 
— 2 ht tne) /A gor. (9.68) 


运用 半 样 本 方法 的 基本 恩 想 , 我 们 可 以 利用 这 些 ea 信 计 3s 前 方差, 先 
引进 记 号 : 
5 名 一 35wa 一 工 : 
[二 大 gun 迁 入 第 = 组 音 样 本 
一 1， 营 ga 选 入 第 “组 半 样 本 ， 





于 是 
Ba Be WB (ym ye) /2, (9.64) 


(ee 一 zs- EC pa) /4 
tT EW vy haya ya) /3. (9.65) 
注意 ， 统 计量 ( 地 wa 一 融 )? 包含 一 个 主 项 与 一 个 交叉 项 ”显然 主 项 即 为 
of ,而 由 于 各 层 抽样 的 独立 人 性， 交叉 项 的 期 望 自 然 为 0。 这 个 事实 提 
供 了 一 个 简单 前 想法 ，2 个 统计 量 (36o 一世)* 的 平均 是 六 (3w) 的 一 个 
无 仿 信 诗 . 
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定理 9.6 | 
可 [ 吕 Geno De) /2 } VB). (9.66) 
然而 , 若 层 数 五 相当 网 的 话 , 知 计 量 pa (9swa 一 ga)2/237 中 所 包含 的 
计算 量 会 使 得 实际 操作 发 生 困 难 ， 表 手 样 方差 信 计 的 模拟 方法 使 我 们 可 
以 选择 无 项 加 以 平均 : 
ai(3oz) 会 辟 Yarra — Yes) /EB. (9.67) 
量 然 这 也 是 玉 (9w) 的 无 偏 估 计 。 对 于 固定 的 及 求 和 式 中 项 的 选择 无 非 
有 两 种 可 能 供 人 参考 ， 一 为 随机 地 从 2" 个 半 样 本 中 独立 不 放 回 地 抽取 下 
个 ; 二 为 特殊 的 选择 以 满足 茶 种 需要 ， 由 (9.65) 式 
Vo gst}—P {vo Ys)} 
+ Fy VIVE (gn)V Cyne) /4. 
{9.68) 
显然 ， 一 般 来 说 ww(gye) 比 起 wl36) 的 精度 差 一 些 ， 若 我 们 能 选取 个 特 
殊 的 尘 样 本 , 以 使 ZC94)= oC9s)， 那 末 玉 {orC96)7= 了 了 fo(yst)}， 为 了 
达到 此 目的 , 由 (9.65) 式 知 , 对 这 五 组 半 样 本 , 仅 需 满足 
spapp 0 《9.69) 


对 一 若 刀 之 如 = 二 1， 人 3，…， 荆 成 立 。Plackett 与 Burman(1946) 构造 了 
下 x2(8 为 么 的 信 数 ? 正 交 矩阵 , 其 列 满 是 该 条 件 。 例如 4 一 3 时， 我们 在 
表 9.3 中 提供 了 5.6.7、8 层 情况 的 半 祥 本 中 满足 条 件 (9.69) 的 子 集 ， 以 
这 种 方式 确定 所 需要 的 个 半 样 本 ， 自 然 导致 等 式 veK9s) 一 v(t)， 也 
就 是 说 ,个 半 样 本 完全 包含 了 组 半 样 本 中 所 提供 的 有 关 玉 (yt) 的 所 
有 信息 ， 而 (Ye 中 有 有关 以 的 交叉 分 量 风 被 “省 格 ” 了 .。 MeOarihy 
《1966) 称 这 样 的 大 组 半 样 本 为 平衡 半 样 本 . 

平衡 半 样 本 给 出 一 个 理想 的 结果 ; on(9se) 一 (3s)， 同 时 它 也 导致 了 
另外 一 个 令 人 鼓舞 的 人 性质: 只 要 我 们 选取 的 无 组 半 样 本 满足 条 从 


吝 5 名 =0 《9.70) 

















对 = 2，……, 五 咸 立 . 此 时 二 语 5mo 一 5 成 立 , 当 >> 厂 时 ,Plackett 
和 Burman 方法 提供 了 这 方面 的 保证 , 我 们 可 以 选择 以 使 (9.70) 成 立 . 
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表 9.8 关于 5.6.7 或 8 层 的 平衡 半 样 本 重复 的 确定 











注 : 在 人 a, 加 客 中 十 1 指 仿 , 1) 单 元 在 第 组 半 样 本 中 ,在 (&, 了 格 巾 一 1 指 th, 单元 在 

第 a 组 半 样 本 中 。 这样 的 表 实 际 上 是 一 个 互 aaamara 引 阵 . 
但 当 8 一 五 时 ,由 表 9.3 可 见 最 后 一 列 全 为 -1， 即 最 后 一 层 中 某 一 元 素 
在 天 组 半 祥 本 内 全 都 出 瘾 , 因此 不 满足 条 件 (9.70) .条 性 (9.69) 与 (9.70》 
同时 成 立时 , 称 这 样 的 半 样 本 组 选择 为 完全 正 交 平 衡 . 

二 、 分 户 抽样 时 的 一 般 估 计量 

在 前 述 抽样 情况 下 , 如 果 参 数 9 的 佑 计量 为 6, 那么 基于 某 半 样本 的 
估计 量 不 妨 记 作 各, 基于 该 组 半 样 本 的 余 集 也 存在 相应 的 半 寿 本 佑 计量 。 
记 作 房 .于 是 , 基于 个 平衡 六 样本 的 关于 六 (外 的 入 计 可 以 为 








mB 0b 《9.7T) 
全 - 襄 成 一 991 C9.72) 


由 于 每 层 内 两 个 单元 的 编号 是 对 称 的 ， 因 此 《9.71) 所 依据 的 组 半 样 本 
为 平衡 的 话 ， 那 么 (9.72) 中 亡 依 据 的 + 组 半 样 本 当然 是 平衡 的 ， 结合 内 
与 婚 , 不 难得 到 一 个 新 的 方差 悄 计 : 

B= [owlO) TvE /2. 《9.73) 
另外 还 可 以 运用 上 节 提 到 的 样本 之 差 的 平方 和 提供 了 母体 方差 信息 的 基 
本 思想 , 得 到 








(6)— 3 (6.— Bs)2/48. (9.74) 


对 于 有 为 观测 值 的 线性 本 数 ， 容易 验证 这 四 个 估计 量 其 实 是 等 同 的 。 但. 
当 9 不 是 线性 形式 时 , 一 般 地 , 它们 并 不 相等 ,对 于 (全 , 则 有 
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BW) 一 各 总 [VC6o)+7( 织 ) 一 200v(6, 从)1 


-到 PC9， 


或 = 了 他 了 | ye), (9.75) 

邵 吕 (9) 是 yy) 的 天 纺 信 计 . 一 般 地 , 当 荆 较 大 时 , 我 们 认为 玉 ( 仙 ) 相 
当 接 近 了 于 六 (人 ， 因 此 通常 绕 () 作 为 玉 (6) 的 一 个 估计 ， 而 另外 三 个 表 
法 式 史 ( 辣 、 听 ( 四 以 及 本 (和) 从 形式 上 可 知 常 作为 MSE(B) 的 估计 . 

三 、 各 层 抽 样 为 简单 无 放 回 情况 

我 们 仍 假定 从 工分 层 各 撒 2 个 单元 构成 样本 以 估计 总 体 均值 了, 只 
不 过 这 一 次 名 层 中 2 个 祥 本 单元 的 抽样 为 随机 不 放 回 的 形式 ， 那 么 得 了 
的 信 计 量 ; 
Wi 其 本 (oa+ene)/2， (9.76) 





VG) 各 WG- 及)2 
-名 到 人 G- 访 ) 人 oh4 (9.77) 


议 (9.77) 比 较 (9.61), 易 见 原 米 的 权 Ws 将 用 有 一 全 ;~ 全 一 3/AWs 代 蔡 . 
如果 仍 沿用 记号 5hxa 及 6sza, 我 们 可 以 定义 六 (Yss) 的 半 样 本 入 计 ; 




















-。 

Yepa—= st 十 2 Wa (Bhan Onaogln2 — a)» (9.78) 
wy 

一 王 训 (wa-9a7. (9,79) 


"的 表达 式 也 涉及 到 率 组 半 样 本 的 适当 选择 ， 沿用 每 层 有 放 回 抽样 的 
记号 , 可 以 验证 , 如 果 不 组 举 样 本 的 选择 狂 足 条 件 
也 38 多 一 0 (hh) 





及 了 5 名 = 0- 

对 时 必 具有 下 述 特性 
人 oer) ~ oss)s {9.80) 
《2) 二 访 Feta— Yat. (9.81) 


对 于 一 般 的 佑 计量 。 例如 yur 的 函数 g(Yyes)( 用 来 估计 参数 88))， 可 
取得 到 9(9so) 的 方 绑 的 半 样 本 估计 ， 


234 第 9 章 ,复杂 样本 方 兰 估 计 的 一 般 方法 
二 f(D}= 主 名 区 (3%, 一 g (5). (9.89) 
显然 ， 当 9(,) 是 线 人 函数 时 ， 对 平衡 半 样 本 组 的 适当 选择 可 以 使 
近 {g( 了 也 满足 (9.80) 与 (9.81) 式 ,但 是 , 当 y(-) 为 非 线性 西数 时 , 通 
常 , 无 论 怎样 选取 大 组 半 样 本 , 都 很 难 使 (9.80) 与 (9.81) 成 立 ， 然而 假如 
9(") 具 有 良好 的 函数 性 质 时 ,利用 Taylor 展开 的 方法 , 9( 包 9 的 主要 习 竹 
党 在 很 大 程度 上 恢 豆 于 其 展开 式 的 线性 部 分 , 因此 , 只 要 上 组 半 样 本 竟 先 
取 满 足 条 件 (9.697 与 (9.70)， 那 么 (9.80》 与 (9.81) 式 对 于 信守 量 (也 
近似 地 成 立 . 
9.4.4 ”每 层 多 于 两 个 样本 单元 情况 
在 上 述 亏 层 内 , 各 层 均 铀 两 个 样本 的 情况 毕 竞 不 多 , 一 般 地 , 我 们 假 
设 每 层 抽样 数 mm>3， 本 节 讨 论 揭 一 个 主题 是 至 少 有 一 层 mm> 当 严格 成 
立 ,为 讨论 方便 起 见 , 不 妨 假定 w 区 为 偶数 . 这 样 ,我 们 可 以 将 个 单元 
随机 地 划分 为 两 组 ， 记 作 oa 一 (pps，sae， Vote)» 一 Cm gr? 




















mn 
,fms ) 这 和 划分 类 有 | sj) 各 可 能 现 假定 估计 总 体 均 值 了 ,我 们 以 
2 


hi 表示 房屋 内 第 ii= 二 3) 分 组 的 平均 值 ,显然 加 一 (,1 十 加 .2)/9. 于 
是 了 的 估计 为 
Yt = 高 mm. 
ms ma nr 
但 丈 的 举 样 本 估计 有 a) - | ns )- (mi 对 于 每 层 确 定 的 分 组 
2 


一 人 La 
2 


2 
轴 | 高 WFC6maz,i+ Bs,z)( 每 层 样本 为 独立 放 回 抽取 ); 
goor1 - _ 
和 he 光一 翅 )( 每 层 样本 为 不 放 回 轴 取 ). 


(9.83) 
这 里 Ws、WY6wzo、5%za 的 意义 同 前 ， 相 应 的 方差 半 样 本 估计 为 


一 主 襄 (总 9)? (9.81) 
显然 当 各 层 的 分 组 均 确 定时 , 半 样 本 的 点 估计 与 方差 估计 与 每 层 仅 抽 2 
个 样本 时 具有 类 似 形 式 ， 关 键 在 于 每 层 分 组 不 同 而 引起 大 基 不 同 的 总 ,a 
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如何 具体 操作 对 多; 作出 半 样 本 方差 估计 , 可 以 有 各 种 不 同 的 考虑 

1. 当 工 很 大 时 ， 可 以 用 耳机 揭 方 式 在 各 层 确定 学 样 水 给 ， 一 且 确 
定 了 , 出 采用 名 层 两 个 样本 的 处 理 方式 . 

2. 当 工 比较 小 时 , 特别 是 五 = 工 或 者 卫 一 4 时 , 则 考虑 所 有 可 能 的 半 
样本 组 合 ， 、 

但 在 实际 抽 桩 中 ， 我 们 直到 的 佑 计量 常常 去 现 为 各 层 导 计量 的 线性 
组 合 , 由 于 各 康之 河 抽 样 的 独立 性 , 因此 仅 需 各 别 进 行 每 层 中 估计 量 的 方 
差 估 计 ， 即 可 得 到 整个 估计 量 的 方差 估计 .而 在 各 层 中 ， 我 们 自然 采用 
9.4.3 眉 中 所 介绍 的 半 样 本 方差 估计 的 方法 





9.4.5 部 分 平衡 半 样本 信 计 

在 一 个 复杂 分 层 抽样 方案 中 , 假如 导数 五 相 当 大 ,例如 五 = 80， 即 使 
平衡 半 样 本 方法 可 以 使 得 计算 所 需要 的 半 样 本 项 数 钱 少 双 有效， 但 由 于 
> 的 要 求 , 而 使 得 这 种 方法 仍 显得 费时 绵 钱 ， 隧 之 提出 的 同 题 是 .能 
香 设 计 一 组 卢 个 部 分 平衡 半 样 市 , 由 此 得 到 的 方差 估计 , 比 来 自 名 个 独立 
学 样本 所 产生 的 方差 怖 计 有 较 理 想 的 精度 .本 县 就 介绍 这 种 方法 如 下 ， 

假定 有 五 层 ( 羡 相当 太 ) 昌 在 平衡 学 样本 中 采用 并 组 ， 由 于 “< 了 
为 此 所 谓 “ 平 衡 ”， 只 能 部 分 地 达到 ， 现 为 了 叙述 方便 起 见 ， 不 妨 假设 瑟 
可 以 被 大 吝 除 , 令 五 /5 一 人 于 是 我 们 将 五 层 分 为 他 群 , 为 使 问题 叙述 清 
楚 ， 考 虑 五 一 上 假定 这 是 个 利 大 的 数 》 那么 共有 空 一 16 个 可 能 半 样 本 . 
浓 照 平衡 半 样 本 方法 ， 必 须 有 &>>4。 因此 我 们 可 以 像 玫 9.3 那 样 利 用 
Eadarard 矩阵 构造 4 组 平衡 半 样 木 。 现在 我 们 仅 取 =3, 则 4 层 分 为 
/4 一 2 群 .对 于 包含 第 一 ,二 层 的 第 一 群 , 采用 2 阶 Hadamard 矩阵 构 
造 2 个 正 交 列 ,而 在 包 食 第 三 .四 层 的 第 二 烙 中 重复 第 一 群 的 方法 ， 具 体 
设计 如 表 9.4. 


表 9.4 


























一 一 一 一 ~ 
0 
半 祥 本 1 2 | 8 和 
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此 时 , 显然 有 
Va( Yet) 二 六 Wa Yai — Yna)? 


+ 计 {WiW s(n 2) (ye ye) 


十 五。 本 (gm 一 oa (ye ~ 2)}. 《9.85j 
我 们 看 至 由 于 设计 的 特点 ， 际 了 两 群 中 有 相同 向 量 的 层 之 问 的 交叉 项 保 
留 外 ， 其 余 的 交叉 项 已 经 金 部 抵消 。 因此 采 膨 该 设计 记得 到 的 半 样本 广 
差 估计 比较 平衡 半 释 本 估计 多 了 若干 交叉 项 , 但 却 减少 了 不 少 计算 量 ,而 
它 比 随机 独立 地 选取 大 组 半 群 本 的 方法 又 减少 了 许多 交叉 项 ， 起 到 了 平 
稀 半 样本 方法 的 茜 些 效应 ， 利 用 这 种 设计 方法 得 到 半 梯 本 方差 信 计 欧 方 
法 称 为 部 分 平 衡 半 样 本 方法 ， 对 于 一 般 的 工 .EK( 只 要 荆 是 的 整数 迟 》 
在 五/h 个 群 的 每 一 群 申 利用 Hadamard 矩阵 构造 直列 正 变 向 量 , 每 群 骨 
构造 方法 完全 一 样 , 则 得 到 记 组 举 样 本 构成 如 下 的 方差 信 计 : 
pe 
-二 启 Gm 一 wo)?+ 雪 加 WW ym-t) (vv). 
(9.86y 
其 中 第 二 个 和 号 是 对 符合 以 下 条 件 的 所 有 (有 力求 的 : 
廊 之 j， _ 
和 来 自 休 一群 上 层 ,而 了 来 自 另 一 群 必 
太 与 了 表示 两 群 中 相应 的 Hadarmard 矩阵 的 相同 列 的 两 个 层 - 
一 L/L ~ LL-—R) 
第 二 个 和 号 中 共 包 含 h 卫 (于 一 了/2" 工 了 及 项 
显然 由 于 各 县 之 闻 直 样 为 独立 的 ， 部 分 平衡 半 样 本 方差 估计 仍 为 无 
仿 售 计 , 








389.5 Taylor 级 数 法 


在 实际 抽样 调查 中 , 除了 总 体 均值 、 总 体 总 和 等 参数 可 以 用 观测 值 的 
线性 函数 形式 作 估 计 之 外 ， 还 常常 运用 一 些 非 线 狂 估计 量 ， 诸 好 比 估计 
量 . 相 关系 数 、 回 归 系 数 等 等 。 通 常 这 些 非 线性 估计 量 的 方差 没有 精确 下 
示 式 , 当然 也 就 庶 不 上 简单 无 偏 估 计 ， 
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销 若 这 些 非 线性 估计 量 中 的 基 一 类 可 以 用 样本 观测 值 的 线性 函数 作 : 
为 近似 , 那么 再 运用 已 有 的 关于 线 狂 估计 量 的 方差 估计 芍 方 法 , 至 少 可 以 
得 到 一 个 虽然 有 偏 但 确 是 相合 的 方差 估计 .这 种 线性 近似 的 方法 主要 恢 
更 于 Taylor 展开 或 者 二 项 展开 的 有 效 性 、 需 妥 强调 的 是 : Tayior 展开 
本 身 并 不 能 合计 方差 , 它 弘 仅 提 供 估计 量 的 一 全线 狂 逼 近 , 然后 再 利用 前 
面 所 介绍 的 方法 以 得 到 近 亿 的 方差 估计 . 





9.5.I 人 悄 计 量 方差 的 线 竹 近似 估计 

考虑 一 个 给 定 的 有 限 总 体力 ， 令 了 一 (了 xu ，…， 了 5)' 霄 示 总 体 人 参数 
的 p 维 向 量 ， 在 Taylor 级 数 展开 的 大 多 数 应 用 中 ， 这 2 个 参数 了,(i 一 
二 9，…，2) 通 党 是 2 个 不 辣 的 调查 指标 的 总 体 总 和 或 均值 ， 因此 基于 
% 个 祥 本 单元 的 关于 了 ;的 估计 量 一 般 采 用 标准 的 人 计量 全 ;, 迁 常 他 ,是 
了 ,的 无 偏 估 计 ， 有 时 即使 是 有 偏 但 祖 合 性 较 好 的 信 计 量 。 于 是 六 的 全 
计量 当然 采用 样本 岛 量 参 一 ( 参 ;，…-, 多 7 

假如 我 们 感 兴趣 的 参数 并 不 仅 是 了 ,而 是 了 的 函数 形式 9=g(C 了 )， 
那 来 自然 采用 估计 量 一 g( 全 )， 现 在 面临 的 问题 是 。 

(D 导 找 信 的 设计 方差 的 近似 表达 式 ; 

(2) 对 及 的 方 卷 建 立 一 个 适当 的 估计 量 . 

正如 前 面 所 述 , 我 们 总 是 考虑 铺 是 了 的 良好 估计 , 甚至 为 无 偏 佑 计 。 
而 对 8 一 (全 ) 采 用 Taylor 级 数 的 另 一 个 前 提 则 为 配 数 gC') 具 有 相当 光 
渭 的 性 质 ， 例如 假定 在 包含 了 与 人 的 某 个 开 集 (这 样 的 开 集 的 存在 由 
于 参数 多 的 未 知 , 一 般 较 难 核实 ， 好 在 我 们 处 理 的 函数 9(- ) 通 常 定义 域 
即 为 此 所 要 求 的 开 集 ) 内 具有 二 阶 连 续 偏 导数 ， 于 是 ， 由 数学 分 析 中 常规 
的 Taylor 展开 得 到 . 

06-60- PY) 























Fi OY, 
3+ 和 训 凡 人 Dr OD YD (9.8m 


其 中 六 位 于 参与 了 之 间 ,注意 到 (9.87) 式 与 (9.28) 式 的 相似 , 因此 从 理 
论 上 讲 ， 我 们 可 以 采用 Jackknife 方差 估计 方法 得 到 严 ( 人 ) 的 近似 估计 ， 
而 且 避 免 了 关于 函数 9(.) 的 偏 导数 运算 但是， 如果 9(.) 前 人 篇 导数 容 
晶 计 算 的 话 ， 那 么 Taylor 级 数 展 开 仍 不 失 为 试图 估计 方差 的 有 效 手 段 . 

在 有 限 总 体 中 ， 通 常 认为 (9.87) 式 右 端 第 二 项 相对 于 59 是 个 “不 
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重要 ”的 分 量 , 于 是 的 均 方 误差 近似 为 
MSR(O) = Elg(?) -gg FY) 
= 了 信 名 -7 了)]} 





有 07， 
- 训 记 BE 00rO, Py Ad 


(9.88) 


其 中 轨 为 他 的 协 方差 扰 阵 , 古 = 好 仿 20 一 …p). 注 意 到 MSE《D) 
一 了 (6) 十 BiasxK6)，yC6) 与 MSE(A) 为 同 阶 ， 而 Bias?(6) 为 高 阶 无 
穷 小 ， 因 此 就 一 阶 近似 来 说 ， 矿 (全 与 MSEB( 雁 的 估计 是 一 致 的 ， 仅 需 
在 (9.88) 式 中 ， 把 鹤 代 之 以 样本 估计 证 ,把 8 代 之 以 有 其 中 己 = 
绢 | 下， 因此 所得 信 计 为 《介绍 训 当然 利用 进一步 Taylox 展开 
还 可 以 继续 得 到 二 阶 或 更 高 阶 的 近似 。 这 对 于 比较 若干 种 方差 (或 均 方 
误差 ) 估 计 方法 的 优 劣 ,显然 是 有 意义 的 ， 但 是 ， 如 果 我 们 药 目 的 仅仅 在 
于 估计 方差 ， 那 么 一 般 大 型 的 复杂 抽样 调查 显示 一 阶 近似 常常 可 以 产生 
比较 满意 的 结果 .需要 注意 的 一 点 是 ; 倘若 总 体 发 生 严重 偏 倚 , 则 依赖 近 
伺 不 可 能 使 人 们 满意 . 











《9.88) 式 可 以 不 费 什 么 力气 而 推广 到 多 元 的 情况 ， 饼 车 我 们 感 兴趣 
和 的 9 维 参 数 疝 量 可 以 表示 为 
GTS (giF), ga( 卫 )，…， ga FY’, 














那么 , 相应 的 估计 量 自然 采用 形式 
GP) = (giP), golP), ~ gelP))'. 
此 时 G( 依 ) 的 均 方 误差 矩阵 与 交叉 项 近似 为 
BE{IGCP) -GFNIGP) GY) = DhD’. (9.89) 
其 中 用 为 gxp 阶 和 矩阵 , 其 一 般 元 为 
dy — BD) 
2 aF 入 





了 
这 样 , 我 们 又 得 到 了 GK 仓 ) 的 方差- 协 方差 估计 为 
Vy (GP)) = PRD, ,202. 
2 
利用 Taylor 级 数 展 开 进 行 方 差 佑 计 的 有 效 性 存在 着 可 能 令 人 们 怀 


本 之 处 , 主要 表现 在 以 下 两 点 : 
{了 用 以 得 到 (9.88) 式 的 Taylor 展开 是 否 收 敏 ? 姑 果 不 收敛 ,那么 
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《9.88) 式 作为 MSE( 人 ) 的 近似 表 未 式 显然 是 不 含 适 前. 

(2) 如 果 了 Taylor 展开 收敛 , 则 收敛 速度 又 是 一 个 令 人 关心 的 问题 - 
因为 收 教 速度 直接 影响 到 近似 方差 估计 的 精度 . 

这 两 个 问题 在 连续 总 体 弄 型 时 容易 处 理 ， 因 为 在 该 模型 下 有 有 可 能 建 
立 Taylor 展开 式 余 项 的 阶 数 , 并 且 可 以 发 现 比 起 展开 式 的 线性 项 来 ， 余 
项 具有 较 高 改 的 无 穷 小 量 ， 这 样 , 在 近似 的 过 程 中 , 可 以 略 去 余 项 ， 可 是 
对 于 有 限 总 体 模型 来 说 , 如 果 不 对 该 模型 作出 一 定 的 假设 , 就 比较 难 有 前 
述 的 结果 . 

例如 , 设 多 与 到 天 未 基于 大 小 为 汪 的 不 放 回 抽样 的 样本 均值 , 它们 之 
间 的 比值 及 -3/5 用 以 信 计 总 体 均 值 比 鼠 一 至 / 王 . 现 令 5, 一 (3 一 参 )/ 六， 
Be 一 (FE 一 是 )/ 亚 ， 则 可 记 太一 及 (1 二 本 IE 二 8) 5 在 8。~0 处 展开 由 为 
Taylor 级 数 的 形式 : 

RR(1TH)(1— 5+ 6 — 6050 —...) 
— R(1+6,— 5,—6,6.+ 62—..). 


N 
些 级 获 当 且 人 饮 当 |5o|< 工 时 收敛 .因此 对 所 有 人 ) 个 可 能 社 环 水 训 ， 当 


且 仅 当 |8s1 < 工时 , 《9.88) 式 关于 MSE( 召 ) 的 近似 公式 才 会 成 立 . 

针对 上 述 情况 ，KooP 兽 构 造 了 一 个 违反 该 收 伍 条 件 前 简单 例子 (可 
参见 Wolter(1985)); 

例 9.2 茶 总 体 术 20, 各 单元 分 别 取 值 为 :5, 1, 3, 6, 7，8, 1，3, 
10, 11, 16, 4, 2, 11, 6, 6, 7, 1, 5, 198， 此 时 #6.3、 选 定 某 容量 大 小 
为 的 样本 组 , 有 w= 《11 十 16-+11 十 18)/4 一 二 .75, 于 是 3 一 (元 一 站)7/ 吾 
一 6.45/6.8>>1， 若 取 mn 一 2 或 3 时 , 也 存在 某 些 样本 组 , 使 得 |6。| >>1 成 
立 . 但 是 当 样 本 组 的 容量 大 小 增加 到 5 时 ,条件 |3o|<I 恒 成 立 。 Koop 
称 ma 一 巨 为 临界 样本 容量 . 

上 面 这 个 例子 启示 我 们 , 当 样 本 量 增加 时 , 那些 由 “极端 ”观测 值 引起 
麻烦 的 可 能 性 会 相应 地 减少 , 从 而 增 大 Taylor 展开 式 收敛 的 可 能 ， 册 经 
验 显示 : 如 果 我 们 采用 相当 有 效 的 调查 方案 ， 并且 使 祥 本 容量 充分 天 ， 那 
人 各 一 阶 了 Taylor 级 数 展开 常常 提供 可 靠 的 近似 -在 有 限 总 体 的 抽样 调 查 
中 , 有 关 非 线性 估计 量 广泛 采用 一 阶 近 似 . 


9.5.2 应 用 Taylor 级 数 于 特殊 的 知 计 车 
Hangen、Hurwits 与 Madow(1953) 讨 论 了 一 种 特殊 的 情况 , 所 感光 
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起 的 参数 具有 如 下 形式 , 
WAS (9.90) 
黄 中 I<m<p, 最 简单 的 例子 为 比 8 一 了 1/ 了 a, 相应 的 估计 量 采 用 
全 人 
| 人 
其 中 多 , 是 了 的 标准 估计 , 假如 它 是 无 妨 估 让. 利用 Taylor 级 数 展开 ， 
可 以 得 到 MSE(E) 的 一 阶 近似 
MSECH) 0 {ou/YIT onm/P A 
+ [onsmii/ YRrit .+t op/ YY] 
+ aLow/(FY2) os/ (YYs) 
ton un (Fm-iT nm)] 
2m mrs/ CY mt m42) ++. 
TF opp/ (Pe o)] 
—2[oymta (YY mt) Tonmt2/ (Yi1Y w+a) 
Tm se/ (FunYs)]}, (9.99) 
其 中 ow Qov( 参 。 傅 /) 为 答 阵 让 的 基本 元 . 如 果 对 于 ot，j 一 4， 
…-, p) 存 在 恰当 的 估计 64w, 那么 MS 卫 (你 吾 以 用 下 式 进行 估计 ， 
v0) = {Ou/ P+ om, mf D2] 
+ [mes mta/ PEt ops/ PN +2Ld so/ (PP) 
TO/ (PP ttn nn/ PF)] 
42m ms/ (全 oa 全 os) 二 
NC 
+ Om/ (Pa) Tt bn, p/ (Fo) 1}. 《9.93) 
《9.92) 式 及 (9.983) 式 是 容易 记 的 ， 对 于 所 有 的 一 般 项 ( 从来 说 , 当 i 一 3 
时 , 该 项 有 一 个 相应 的 方差 cw (或 方差 估计 $4) 陈 以 相应 指标 的 平方 了 ? 
《或 他 ,该 项 前 面 的 系数 为 十 而 当 t 了 时 , 则 有 一 个 相应 于 变量 他 ;与 
好 的 协 方差 (或 协 方差 的 估计 ) 除 以 两 个 相应 指标 (或 它们 的 估计 ) 的 乘 
积 , 该 项 前 面 的 系数 取 士 9, 当 纪 了 两 个 相应 指标 同 在 分 子 或 同 在 分 母 时 
取 +2, 否则 取 一 9. 
考虑 参数 (9.90) 式 的 最 简单 的 比 以 及 比 佑 计 的 情况 ， 此 时 0= 忆 = 
也 /于 ， 则 在 一 多 瑟瑟 性 均 为 不 帮 回 抽样 合计 。 利用 一 阶 Taylor 近 但 ， 
MS 也 ( 芒 ) 的 佑 计 可 取 为 
































$89.5 Taytor 级 数 法 B01 


(Bfolo/y ta/ — Qo es/ FY) 
/1-f 2 1—f.s 3 一 力 :中 
CE nzy 


= 
wm ny 


— (s+ fess —2hs). {9.94) 


Tr 

注意 第 4 章 比 估计 的 方差 估计 中 的 公式 (4,59), 那 时 的 v1( 妈 ) 与 (9.94) 式 
中 的 ?《 衣 是 一 致 的 . 

在 第 二 章 案例 分 析 中 给 出 了 Taylor 级 数 法 的 一 个 很 好 的 实例 。 在 
其 .5 的 «1987 年 中 国 儿 童 情 总 抽样 调查 > 中 考虑 了 某 两 个 指 标的 比 估 
计 问 题 . 对 于 比 估计 量 的 方差 估计 ， 利用 Taylor 级 数 可 以 由 (9.94) 式 
解决 .该 案例 采用 了 和 分 层 二 阶 不 等 概率 整 群 抽样 方法 , 从 而 使 Taylor 级 
数 方差 估计 式 中 dv= Oov( 全 ,他 ) 成 为 关键 ， 在 该 案例 的 处 理 中 主要 采 
取 了 先 将 待人 的 Cov( 全 , 全) 近似 地 表达 成 两 个 容易 估计 的 参数 的 线性 
组 合 , 从 而 最 终 解决 了 问题 . 

















9.5.3 鞍点 逼近 方法 

我 们 在 本 章 曾 数 次 提 到 过 , 在 抽 祥 调查 实 跨 中 , 有 时 关心 的 指标 本 身 
是 连续 变量 , 例如 人 体 的 身高 .体重 等 , 有 时 由 于 有 限 总 体 单元 个 数 相 多 ， 
而 相应 地 将 关心 指标 近似 视 作为 连续 变量 ， 在 这 种 情况 ， 我 们 可 以 借助 
于 近 几 十 年 来 越 来 越 受到 男 际 统计 学 界 卢 目的 靶 点 逼近 的 方法 ， 以 得 到 
统计 量 的 分 布 窗 度 (或 分 布 函 数 ), 从 而 获得 统计 量 前 方差 估计 , 尤其 是 可 
以 获得 统计 量 分 布 的 分 位 数 ， 提 供 了 参数 估计 籍 度 的 一 类 刻 划 ， 下 面 简 
属地 介绍 这 种 贰 点 通 近 方法 ， 

假设 下 ,了 s。…, 下 ,为 而 立 变量 且 具 有 兴 同 的 分 布 万 ， 我 们 试图 
获得 了 一 于 高 基 (或 等 价 地 高 站 ,) 的 密谋 近似 ， 令 (2%) 一 log 盏 (en 
囊 示 变量 入 的 累积 晶 母 函数 (oumulant generating function), 则 在 # 
点 及 的 密度 可 以 表示 为 (本 自 中 表示 纯 庶 数 单位 ) 

/00 = 到 | PIn{E(%) —M}]an, (9.95) 


Er 
坟 中 曲 是 尺 (3) 收 合 域 内 的 复 力 道 。 利用 鞍点 逼近 方法 ( 斑 eidC1988) 对 
著 点 通 近 与 统计 捧 断 有 一 个 出 色 的 综述 ) 可 以 得 到 互 在 上 点 的 密度 的 著 
点 展开 为 . 
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00 ~ {ay} PEAK GW) 210 已)， 《9.99) 
其 中 和 称 作 著 点 ,是 鞍点 方程 '(%) 一 + 的 很， 玉芝" 分 别 表示 及 (和 ) 的 
一 阶 .二 阶 导数 ; 而 余 项 EE, 一 般 具有 n+ 次 短 的 履 开 . 
在 相当 广泛 的 条 件 下 ， 统 计 学 家 证 明了 喜 点 方程 存在 唯一 实 根 . 特 
别 地 , 包括 了 随机 变量 也 可 以 服从 离散 分 布 的 情况 . 
(9.96) 式 药 重 要 性 有 两 点 ， 首 先 其 误差 阶 为 w-: 而 不 是 中 心 极限 定 
理 中 正 态 逼近 的 于 全 阶 ; 其 次 , 误差 是 一 致 的 ， 从 而 在 分 布 的 尾部 到 近 即 
使 % 比 较 小 仍然 得 当 精 确 . 
对 于 吝 的 累积 分 布 画 数 全 相应 的 近似 式 由 Daniels (1987) 给 出 。 
车 到 为 连续 分 布 的 话 , 则 有 
GD SD ) + 0 CW — 1), C9.97) 
其 中 w= [Bantet— KE (hs)}I Ysgn (he), 
一 fm" (Ae) 
agn(") 为 符号 函数 ,和 仍 为 鞍点 方程 的 根 , B(").$(.) 分 别 表示 标准 正 态 
分 布 函数 与 密度 函数 ， 
利用 (9.97) 式 可 以 得 到 他 前 从 个 分 位 点 .倘若 我 们 考虑 的 是 至 一 丹 
《1 一 召 互 ) 的 分 布 的 话 , 那么 实际 上 得 到 了 参数 所 的 有 关 置 信 区 间 ， 但 是 
(9.97) 式 的 缺点 在 于 需要 知道 了 , 否则 ,就 无法 解 出 迁 点 和 来， 如果 也 
未 知 ， 我们 可 以 用 下!, 生 s，…:， 斑 , 的 经 验 分 布 通 数 色 来 代 蔡 ， 此 时 累 
积 量 母 函数 下 (%) 可 以 箔 计 为 
六 CO- ze{r: 宫 srpcoD]- (9.98) 
因 徊 所 求 节点 为 下 述 方程 的 唯一 解 , 


DD expl hs) 
t= (9.99) 


加 expom) 
上 述 方程 在 f<min (oj) 与 tmax(w) 对 无 解 ， 这 在 实际 中 是 相当 清 想 
的 . 
在 理论 上 , 以 经 验 分 布 丽 数 入 代 赫 妃 ，(9.97) 式 前 误差 阶 不 再 是 一 
致 的 , 但 是 利用 区 点 通过 方法 仍然 有 精确 的 效果 ， Davison 和 Hinkley 
《1988) 对 于 ( 亚 一 we 给 出 了 一 个 数值 例子 如 下 











9.6 


17.2 


《下 一 jp) 的 精确 分 位 点 只 能 通过 Bootsirap 模拟 得 到 ， 


$9.5 了 aylor 级 数 法 


给 定 一 组 n=10 的 样本 ， 


10.4 
17.8 


15.0 
24.0 


803 


即 从 这 10 个 数据 


中 放 回 地 抽取 20 个 Bootstrap 数据 构成 ( 陡 * 一 5), 为 了 使 之 尽 可 能 精确 ， 
取 模 氢 次 数 为 50000 次 ， 具 体 结果 见 下 起 ; 


表 9.5 及 一 pp 的 再 抽样 分 位 点 的 近似 





报案 


精确 人 


鞍点 近似 


正 态 近似 





0.0001 
0.0005 
0.001 
0.005 
OQ.01 
0.05 
0.10 
0.20 
0.80 
G00 
0.95 
0.99 
0.995 
0.999 
0.9905 
C.0999 





一 6 34 
一 5.79 
一 5.65 
一 生 -了 
一 下 -42 
—3.34 
一 当 .69 
一 1.36 
工 .80 
2.87 
3.73 
5 
6.12 
7.52 
B49 
9 





—6.31 
85.78 
~5.52 
—4.81 
—4.43 
一 3.33 
一 2.69 
一 .86 
1.80 
2.85 
3.75 
五 .48 
日 .12 
了 ,46 
7 了 .99 
9.12 





一 8.46 
-7.48 
—7.03 
—5.86 
—5.29 
一 3.74 
一 >-91 
一 上 .81 
1.91 
2 .9 
3.74 
,39 
5.86 
了 .03 
了 ,48 
5.46 





计 > 芒硝 信 一 蒋 由 59000 次 bootstrap 粮 氢 而 得 。 


从 上 表 可 以 看 出 : 鞍点 逼近 得 到 的 分 位 点 比 常用 的 正 态 逼近 精确 得 
窗 ， 龙 其 是 对 于 分 布 两 端的 分 位 点 更 显示 出 较 点 逼近 的 优越 人 性。 另外 我 








们 还 可 以 看 到 ， 
闻 样 的 效果 . 





利 月 








贰 点 逼近 公式 可 以 取得 大 量 与 Bootstrap 模拟 几乎 


鉴于 在 样本 量 wm 比较 小 的 情况 ， 鞍 点 逼近 可 以 提供 于 一 的 分 布 接 
近 尾 部 分 位 点 的 梳妆 精确 的 居 计 , 四 此 , 在 有 限 总 体 的 抽样 调查 中 ， 人 们 


已 经 开始 注意 到 这 种 方法 的 实用 价值 、 


第 10 章 


非 抽 样 误差 及 相关 问题 


在 第 9 章 中 介绍 的 关 于 复杂 样本 的 方差 估计 ， 以 及 前 面 几 章 给 出 的 
关于 一 些 简单 估计 其 方差 估计 的 公式 , 都 基于 这 样 一 种 信念 : 无 论 在 调查 
中 采用 野 一 种 抽 料 方案, 我 们 记得 到 的 每 一 个 观测 值 9 区 是 正确 无 误 的 ， 
前 面 记 谈 及 的 误差 ,是 由 于 企图 用 局 部 (m* 个 抽样 单元 的 数据 ) 去 推断 总 体 
过 程 中 必然 会 发 生 的 差异 , 为 避免 局 部 “ 奉 代 ”整体 时 发 生 “ 航 端 * 的 铺 况 ， 
我 们 采用 随机 的 手法 获取 m 个 样本 ， 讨 论 韵 正 是 由 于 随机 卸 样 过 程 中 所 
产生 的 随机 误差 , 即 朱 样 误 差 - 

人 销 著 整个 抽样 调查 过 程 比 较 简 单 , 而 且 拥 有 相当 高 级 的 计算 器 具 , 并 
且 我 们 前 调查 人 员 极 端 认 真 负责 …。 这 一 切 保 证 了 上 述 假定 的 可 能 人 性 . 
然而 , 一 旦 进入 抽样 调查 实践 ， 人 们 常常 发 现 这 些 假定 是 不 尽 人 意 的 , 在 
复杂 的 抽 祥 调查 中 尤其 如 此 ， 在 实践 中 , 除了 贡 桩 误差 外 , 可 能 产生 误差 
的 来 源 常见 如 下 : 

一 、 无 回答 现象 

对 某 些 选 定 的 样本 在 调查 过 程 中 发 生计 算 遗 漏 . 最 突 册 的 表现 在 所 
关心 的 指标 涉及 到 人 , 而 被 调查 者 要 父 找 不 到 , 要 么 拒绝 回答 . 

二 、 调 查 误差 

由 于 工具 或 人 为 的 一 些 因素 而 造成 观测 值 与 真正 的 了 有 偏 误 . 

三 、 资 料 数据 整理 过 程 中 所 产生 的 误差 

鲍 如 调查 数据 的 登录 及 计算 机 录入 过 程 中 发 生 的 错误 . 

这 些 误 差 的 可 能 存在 ， 使 得 我 们 不 能 依照 前 面 几 章 诬 讲 述 的 方法 计 
算 误 差 及 置信 艰 . 因而 我 们 面临 的 新 问题 是 如 何 戚 少 这 些 非 手 样 误 差 ， 
在 茶 些 非 揣 样 误差 的 确 存 在 的 情况 下 ， 又 如 何 涂 有 效 地 计算 误差 与 置信 
限 . 
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$10.1 无 回答 及 其 影响 


10.1.1 元 回答 的 类 型 

无 回答 (non-responge) 的 类 型 粗略 地 归结 为 : 

一 、 壹 汤 

由 于 样本 抽取 的 晨 机 性 ， 存 在 某 些 已 经 确定 要 去 调查 的 单位 发 生 找 
不 到 的 现象 , 或 者 由 于 客观 存在 的 于 难 ， 诸如 交通 不 便 , 气候 恶劣 等 而 使 
得 无 法 找到 被 调查 者 . 

二 、 不 在 家 

被 调查 者 恰好 不 在 家 , 通常 有 两 种 情况 可 处 理 , 一 种 是 该 家 庭 中 其 他 
人 可 以 作出 回答 , 这 种 处 理 比较 容易 , 另 一 种 调查 比较 注重 对 象 选 择 的 随 
机 性 , 选择 到 谁 , 就 调查 谁 , 于 是 由 于 “不 在 家 ”而 引起 了 无 回答 现象 . 

三 、 不 能 回答 

包括 某 些 被 调查 人 对 所 调查 的 问题 缺少 有 关 资 料 或 考 不 愿意 提供 . 

1993 年 我 们 在 对 一 些 企 事业 单位 调查 有 关 职 工 收入 ， 住 房 等 指标 时 
发 生 了 不 少 第 一 和 第 二 两 类 无 回答 现象 .有些 单 位 主管 负责 人 外 上 出 形成 
了 “不 在 家 ”, 而 其 他 人 白 提供 资料 常常 不 准确 ; 有 些 单位 缺乏 其 中 某 些 资 
和 料 ， 甚 至 有 些 单位 明确 表示 不 愿意 提供 这 方面 的 数据 ， 经 过 若干 工作 后 ， 
一 般 单位 还 较 愿 意 配合 .但 也 存在 一 些 如 下 第 四 类 “无 回答 > 现象. 

四 、 坚 决 拒绝 调查 

由 此 产生 的 偏差 一 般 难 于 消除 . 


10.1.2 无 回答 的 影响 

任何 一 种 调查 总 可 以 将 总 体 分 为 两 个 部 分 ,一 部 分 是 一 旦 抽 到 就 可 
以 得 到 回答 并 进行 计量 的 单元 , 设 该 部 分 总 数 为 V1!; 另 一 部 分 由 一 旦 入 
祥 会 产生 “无 回答 ”的 单元 所 组 成 ， 设 其 总 数 为 入 CNi 十 Ns 一 入 )}。 这 两 
个 部 分 的 划分 当然 与 所 关心 的 指标 、 所 查找 的 单位 以 及 采用 调查 的 手法 
密切 有 关 . 例如 人 口 抽 祥 调查 储 若 只 关心 性 别 、 出 生年 月 等 指标 ， 一 最 
“无 回答” 部 分 所 占 比 例 相当 小 ， 若 询问 的 是 年 收入 与 年 支出 分 配 这 样 的 
问题 ， 则 六 s 可 能 相对 大 . 又 著 调 查 采 用 多 次 访问 再 加 上 调查 员 的 工作 
细致 周到 , 比较 只 采用 一 次 访问 的 调查 , 前 者 的 “无 回答 ”部 分 就 可 能 比 后 
者 小 得 多 。 
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现 设 Wi 一 WAN, 镀 s 一 入 2/ 和 NW， 假 如 采用 篇 单 随机 抽样 来 估计 总 体 
均值 ， 此 时 我 们 手中 羽 有 第 一 部 分 所 得 样本 数据 , 于 是 得 到 偏 博 为 
Bg) FP- PP-P— WPF+ WaT)— We(F— Fs). 
(10.1) 
上 式 中 Ts 与 了 ; 询 可 以 估 得 , 然而 了 。 是 样本 所 无 法 提供 的 , 因此 无 法 效 
知 访 倚 的 大 小， 
假如 所 关心 的 指标 是 个 连续 变量 ,其 可 能 取 值 范 围 相当 大 ， 于 是 了， 
药 取 值 范围 有 可 能 也 相当 大 , 加 上 无 回 管 部 分 所 占 的 比例 访 。 相 当 大 时 ， 
我 们 无 法 从 样本 获知 偏 箭 ， 更 无 法 确定 也 的 置信 限 ， 如 果 硬 要 获得 有 关 
了 了 的 置信 限 , 唯一 可 行 的 方法 是 对 偏 倚 作 一 些 猪 测 , 当然 这 样 的 猜测 常常 
无 法 证 实 其 正确 性 , 从 而 所 得 的 “ 妖 信 限 ” 缺 乏 一 定 的 入 据 , 缺乏 相当 的 精 
确 度 .， 可见, 无 回答 现象 的 存在 对 于 抽样 推断 影响 很 天 . 
乱 如 所 关心 的 是 连续 型 指标 9, 如 同 总 体 均 值 一 样 , 共有 形式 ， 
8 一 厂 4 十 下 sg- (10.2) 
如 果 吕 是 个 取 值 范 国有 限 的 连续 变量 ,一 般 地 多 也 当 如 此 对 于 总 体 的 
第 一 部 分 指标 外, 具有 样本 估计 鲜 , 利用 经 典 统计 及 抽 祥 理论 , 则 可 得 到 
由 的 (在 一 定 置 信和 度 下 ) 上 、 下 置信 有 限 一 一 wv 及 Bows， 仿 如 押 如 同 台 一 样 
具有 取 值 的 上 .下 限 ; 4 与 4z, 那么 在 理论 上 可 得 到 8 的 置信 上 、 下 限 ， 
Wr WdAr<90< Hit WAo. (10.8) 
假定 镀 s 已 知 ,那么 上 述 区 闻 可 以 粗略 地 作为 6 的 置信 区 间 . 由 于 名 采 
用 了 其 可 能 取 值 的 两 端 , 因此 这 样 得 到 的 轻信 区 间 显 然 是 保守 的 , 也 就 是 
说 ，68 落 在 该 区 间 的 可 能 性 天 于 所 给 定 的 置信 寄 。 这 一 点 在 理论 上 也 不 
难 证 明 ， 而 且 可 以 清晰 地 看 到 ， 该 区 间 的 长 度 与 矶 。 的 天 小 很 有 关系. 
Ws 僵 小 .区 间 长 度 就 傅 短 , 置信 度 就 愈 接近 于 设计 方案 所 要 求 的 ， 因 此 ， 
在 整个 铀 样 调查 过 程 中 ， 有 时 值得 花费 一 部 分 资金 作 多 次 访问 等 进一步 
工作 , 以 便 减 少 无 回答 的 比例 . 
假如 三 。 未 知 , 而 调查 的 回答 只 有 两 种 可 能 , “是 ?或 4 杏 ” 那么 我 们 
可 以 得 到 一 个 更 粗略 一 些 的 置信 区 间 ， 只 要 在 计算 9 的 上 下 限时 将 无 加 
答 者 的 反应 全 部 认可 为 回答 “是 (或 “省 ”)。 当然 ， 这 种 看 来 是 自然 的 估 
讨 , 会 引起 置信 区 品 的 长 上 度 培 大 . 


10.1.3 多 次 访问 及 其 模型 
为 了 缩小 无 回答 前 影响 , 减 小 无 回答 的 数量 , 我 们 有 必要 采取 一 些 措 
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施 , 例如 采用 多 次 访问 的 方法 。 当然 多 次 访问 对 于 那些 “坚决 拒绝 噩 答 ” 
党 来 说 很 难 奏效 , 但 对 于 “不 在 家 ”、“ 不 能 回答 ”等 无 回答 类 型 ， 是 有 一 定 
作用 的 .问题 在 于 如 人 柯 确 定 多 次 访问 的 次 数 , 以 便 既 在 经 济 上 承担 得 起 ， 
又 能 减少 无 回答 数量 . 
确定 多 次 访问 的 次 数 是 个 较 困 难 的 事 铺 , 它 涉 及 到 调查 的 方案 .访问 
的 相对 费用 以 及 花费 的 时 间 等 各 种 因素 . 
假如 调查 的 内 容 是 被 访问 单位 (或 家 庭 ) 中 其 他 任何 人 都 能 回答 的 ， 
那么 第 一 次 访问 的 成 功率 显然 较 高 ， 故 访问 的 次 数 常常 不 必 规 定 太 多 . 
但 当 要 去 调查 被 随 厅 抽 中 的 人 时 ， 一 般 第 一 次 访问 的 成 功率 将 比 前 种 铺 
况 村 小 得 多 ， 但 是 由 于 调查 员 能 乘 第 一 次 扯 空 时 可 能 会 了 解 到 被 调查 者 
入 村 在 家 等 信息 , 第 二 、 兰 次 访问 的 成 功率 将 显著 比 前 种 情况 增加 ， 因 此 
”在 这 千 方 案 下 , 一 般 规定 的 访问 的 次 数 要 略 多 一 些 - 
关于 调查 的 相对 费用 , 主要 关心 的 是 到 某 次 访问 结束 , 按 全 部 完成 的 
调查 通 摊 计算 每 - -完成 的 调查 的 平均 并 用 . 利 所 费用 的 计算 从而 估计 能 
在 资金 方面 承担 的 访 癌 次数， 有 时 需要 利用 厉 史 的 或 经 验 的 资料 进行 测 



































另外 ， 时 间 方 面 的 考虑 对 确定 多 次 访问 的 次 数 也 是 重要 的 ， 众 所 周 
知 ， 多 次 访问 必定 会 延迟 取得 最 后 结果 前 时 间 .， 这 就 是 需要 根据 调查 的 
时 间 方 面 的 要 求 加 以 考虑 ， 
Deming(1953) 建 立 了 一 个 多 次 访问 效果 前 数学 模型 ; 
根据 找到 被 调查 者 的 概率 将 总 体 划分 为 7 组 , 引进 一 些 记号 ， 
Ww 一 在 次 访问 中 找到 第 j 了 组 的 一 个 被 调查 对 象 的 概率 (不 妨 假 设 
W040): Pp; 一 总 体 中 属于 第 5 组 的 比例 ; 
以 一 第 5 组 某 指 标的 均值 ， oa 一 第 了 组 某 指标 的 方差. 
以 4s 表示 在 总 共 5 次 访问 中 所 找到 的 第 7 组 中 被 调查 对 象 有 有 关 指 标的 
均值 , 假定 











Bg) = ps C10.4) 
于 是 , 该 指标 的 总 体 均值 为， 

Ep (10.5) 
对 于 确定 要 访问 的 样本 ,经 过 第 次 访问 之 后 可 以 划分 为 (r 十 1) 组 、 样 


本 属于 第 1 组 并 被 调查 者 ; 样本 属于 第 2 组 并 被 调 容 者 ,…, 依次 类 推 , 直 
到 样本 属于 第 ”组 并 被 谓 查 者 ， 至 于 样本 中 的 第 Cr 十 二 组 则 出 第 6 次 访 
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疗 后 尚未 被 调查 者 组 成 。 粗 申 地 ， 我 们 可 以 认为 这 (r+ 了 组 中 的 人 数 
Gm m2， Wor+1) 服 从 多 项 分 布 ， 而 98i 十 Ws 十 十 Thr+1 一 ?wo 为 调查 方 
案 确 定 变 调查 的 样本 总 数 。 因 此， 

2 一 的 4 十 9723 十 "十 or (10.6) 
表示 在 次 访问 过 程 中 被 调查 过 的 功 人 数 ， 那 么 该 随机 变量 显然 服从 成 
功 概 率 为 wa 十 Waps 十 … 十 wrpr， 试 验 次 数 为 no 的 二 项 分 布 ， 它 欧 彰 
望 应 为 国 
Bm) = wip (10.7) 
而 当 m 国定 时 ，(waz mr， …， rr) 又 服从 各 别 成 功 概 率 为 wou2wy nwsps 
欧 多 项 分 布 , 因而 


Hmmlm) 一 3 r. (10.8) 


我 们 以 锡 表 示 台 次 访问 之 后 得 至 的 样本 均值 , 则 
2 - SmYs YY. Eap .Des 和 
BRIn) = (De ) Pe Ba, (10.9) 
这 个 条 任期 望 的 结果 并 不 依 束 于 条 件 变 量 m 的 取 值 , 表示 了 91 的 无 条 件 
期 望 当然 也 为 六 于 是 得 佑 计量 的 偏 倚 是 (FE, 一 )， 同样, 我 们 可 以 
求 得 给 定 ne 时 , 34 的 条 件 方差， 


琴 a0is ps [oF C0s— Bhs)?] 
VO) = 《10.10) 


和 2 





注意 到 
1 


(+ Bs) 


— A 
-成 -人 -和 5 + )- -小 (10.11) 
如果 忽 略 掉 二 阶 以 上 无 穷 小 可 以 近似 地 得 到 如 的 无 条 件 方差， 即 规定 
作 次 访问 情况 下 样本 均值 的 方差 : 


| 
VD (10.13) 
ml wups) 
因 面 得 到 在 规定 作 必 次 访问 之 后 所 得 估计 量 六 的 均 方 误差 ， 
MSE Cg {2) =V (DT Cs— BY). (C10.18) 





< 
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按照 (10.18) 式 ,我 们 可 以 大 致 地 估算 访问 次 数 了 的 取 值 ,以 使 MSBEK9e | 急 
达到 谓 查 设计 的 要 求 , 其 闻 , 必须 要 结合 考虑 进行 % 次 访问 扬花 费用， 第 
天 次 他 一 TI，2，…， 动 访 正 中 完成 的 调查 (下 包含 第 天 次 以 前 的 调查 ) 的 
期 望 值 容易 计算 为 己 (aow 一 sx-tp)2x。 假定 O 为 第 天 次 访问 中 每 一 个 
完成 调查 的 平均 费用 , 那么, 进行 次 访问 的 总 费用 期 望 值 为 mwO(E)， 其 


中 





OC = OB pst OT 002s — wii I)Pi+ 

+t OB 0 — W173. (C10.14) 
将 费用 及 均 方 误差 综合 考虑 多 次 访问 的 问题 ， 一 般 是 费用 支出 暂 为 
男 定 的 情况 ， 所 得 MS 了 (9y) 教 值 自然 随访 问 次 数 不 同 而 改变 ， 如 果 我 们 
从 历史 与 经 验 中 积累 一 些 有 关 费 用 及 相关 芍 wws、ps 以 及 相对 偏差 等 资 
料 , 那么 有 可 能 比较 MSE(3). 假如 具 进 行 一 次 访问 , 给 定 的 费用 可 以 支 
付 mo 个 抽样 ， 随 着 我 们 规定 访问 次 数 的 增多 ， 利 用 有 关 资 料 可 以 分 别 求 
出 mo me, …， m4 的 期 望 值 , 从 而 利用 公式 分 别 求 得 六 (89) 及 MSB(y). 


10.1.4 校正 无 回答 误差 的 方法 

无 回答 现象 的 存在 , 对 抽样 统计 推断 产生 一 定 的 影响 这 种 影响 随 
着 无 回答 部 分 白 占 比例 的 增加 而 扩大 . 因此 在 实际 抽样 调查 中 ， 应 当 采 
取 一 些 措施 , 以 校正 由 于 无 回答 而 产生 的 误差. 

《一 ) 对 第 一 次 访问 后 的 “无 回答 者 "进行 某 确定 方案 的 随机 抽样 ， 对 
获取 的 子 样本 作 “ 重 点 "访问 。 这 个 方法 相当 于 总 体 分 为 有 回答 与 无 回答 
两 部 分 ， 如 前 一 样 假设 这 两 部 分 记 占 的 比例 分 别 为 wm 与 we。 在 调查 方 
案 中 确定 所 取样 本 量 为 mo, 每 一 次 访问 的 费用 为 oo 而 第 一 次 访问 后 从 第 
一 部 分 中 得 到 前 回答 为 ra， 对 每 一 个 这 样 的 数据 处 理 所 需 装 用 为 oo， 和 
一 mo 一 ni 为 无 回答 数 。 例如 用 邮寄 调查 表 的 形式 ， 收 到 回信 的 为 “有 加 
管 ”， 在 无 问 信 的 nz 个 单元 中 狂 选 一 部 分 用 上 门 访问 的 方式 进行 第 二 次 
调查 ， 通 过 努力 最 后 又 得 到 咏 =ms/% 个 数据 ， 设 第 二 次 数据 的 获得 平均 
所 斋 闹 用 为 cs, 屠 末 实际 取得 数据 所 需 费用 为 


Conot omat es. (10.15) 


这 里 wo 为 预先 确定 , nw 与 na 是 随机 的 ， 主 为 第 二 次 重点 访问 所 占 已 知 无 
回答 者 的 比例 数 , 是 待定 的 某 数 ， 因 此 , 平均 来 说 , 记 需 费用 为 (20.15) 式 
的 期 望 - 
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加 一 cone 十 Caazpzo 十 9 {10.16) 


馈 车 待 佑 计 参 数 为 了 ,可 以 用 关 记 第 一 次 访问 后 得 到 的 样本 均 信 ， 用 名 
记 第 二 次 下 点 访问 所 得 数据 的 平均 , 假如 第 二 次 访问 的 选取 是 随机 的 ,我 
们 可 以 得 到 关于 卫 的 一 个 无 偏 佑 计 ， 


YF =a + ays — 





《aa 十 raga) 《10.47) 
Yo 
该 估计 的 方差 不 难 计 算 ， 假 设 以 品 作为 m 个 无 回答 者 有 关 数 据 的 真正 
平均 (当然 这 是 无 法 获知 的 , 但 在 理论 上 它 总 归 存 在 ), 那 末 
DA 
=—V Cpt wy) + [wal ys — ¥2)] 
十 SOor wg, wo ya— 92)) 
+20ov (wag, walys — 2)) 
=( 汪 一 s+ 2, ”0.18) 
其 中 属 为 总 体 方 差 ，53 为 无 回 管 逆 分 的 方差 。 结合 (10.16) 及 (10.18) 
式 , 我 们 有 可 能 按照 实际 情况 来 确定 初始 祥 本 晤 mo 及 无 回答 者 中 区 再 抽 
拌 比如, 根据 使 OCF 十 s3/W) 乘 积 达 到 最 小 的 原则 ,的 最 桂 选 择 为 
请 根据 玉 或 者 C 确定 的 情况 下 ; 分 别 从 (10.18) 与 (10.16) 式 解 出 所 需要 
的 最 初 祥 本 量 wo， 从 (10.19) 可 知 ， 要 知道 加 (从 而 解 出 ro)， 必须 还 应 知 
道 tm .aos 与 ,01 与 ws 常常 可 以 根据 资料 或 历史 经 验 予 以 估计 ， 而 53 
是 无 回答 卷 部 分 的 方 关 ， 冉 于 “无 回答 ”， 当 然 较 难 知道 它 的 大 概 ， 显然 
3 不 能 用 来 代替 , 因为 无 回答 部 分 常常 有 其 自己 的 特性 , 这 的 确 增加 
了 佑 计 io 与 确定 mo 的 难度 ， 但 不 管 怎样 ， 这 种 方法 本 身 确实 对 于 “无 区 
答 ” 所 引起 的 误差 产生 校正 的 效果 . 

(二 ) 常 常 关心 的 同 题 是 , 如 果 只 进行 一 次 调查 , 由 于 无 回答 而 产生 的 
误差 如 何 校 正 .。 Polize-Simmons(1949, 1950) 对 总 体 均值 的 建议 有 一 定 
的 启发 性 . 

. 奶 定 所 有 访问 均 是 在 星期 日 以 外 六 个 晚上 进行 ， 对 二 每 一 个 在 访问 
中 遇 到 章 被 调查 者 附加 询问 其 在 前 面 五 个 晚上 (不 包括 星期 日 》 蚌 否 在 
家 ,根据 他 所 同 答 的 在 家 天 数 # 就 不 难 获 得 他 在 家 的 频率 w 的 估计 ;全 = 
(E+ L176. 




















B11 


调查 的 缚 时 可 以 因 上 的 取信 不 同 (5 一 0，1，32，…, 加 而 划分 为 六 下 
部 分 , 每 个 部 分 含有 mw 个 调查 数据 ,t 越 大 , m 就 越 大 ， 该 组 入 笠 的 可 能 性 
就 越 大, 因此 该 部 分 的 均值 各 在 信 计 总 休 均 信和 的 过 程 中 将 赋予 与 = 相对 
应 的 家 ,这 与 不 等 概率 抽样 时 的 均值 信 计 有 类 同 的 意思 于是 我 们 将 样本 
均值 上 了 调 连 为 Polize-Simmons 估计 ， 

以 6n5yGHD 六 mi7G+3 


访 6m/4tl) m/erD 
这 种 校正 在 直观 上 有 个 合理 的 假设 , 某 些 感 兴趣 的 指标 (例如 生活 器 用 的 
平均 年 支出 ) 与 被 调查 者 是 否 容易 找到 这 个 因素 有 较 大 的 相关 性 , 如 果 禾 
簧 地 深 用 所 得 节 据 的 芍 值 ， 很 可 能 信 于 突出 万 些 符 易 技 到 的 对 家 的 相应 
数据 的 影响 ， 而 犯 盖 了 另 一 部 分 人 相应 数据 的 作用 采用 Polize- 
Simmons 的 加 权 平 均 在 一 定 程度 上 校正 了 这 一 偏差 ， 不容 置 疑 的 一 点 
是 :由 于 采用 加 权 均 值 代 葵 了 一 般 均 值 , 且 这 种 权 狼 也 是 通过 估计 得 来 的 ， 
因此 我 们 将 不 得 不 付出 增 大 估计 量 方 差 的 代价 。 但 节省 时 间 、 费 用 是 这 
种 校正 的 优点 , 因为 它 不 需要 作 再 访问 . 


510.24 调 间 误 兰 


《10.20) 


多 ax 一 








3$10.2 调查 误差 


现在 我 们 国 到 处 理 数据 的 问题 , 而 不 去 考 虞 无 回答 的 影响 ， 假如 道 
过 抽 祥 调查 得 到 了 m 个 数据 , 由 于 计量 工具 的 不 够 精确 , 以 及 调查 员 的 工 
作 中 的 某 些 失误 等 等 ， 都 可 能 造成 调查 数据 存在 一 定 指 误 差 . 甚至 还 有 
可 能 某 些 数据 看 在 着 “ 护 步 "现象 , 它 非但 不 能 提供 有 关 的 信息 ,及 而 干扰 
了 在 处 理 数据 时 作出 的 推断 的 正确 性 ， 这 一 类 所 亩 “伪劣 数据 常常 因 田 
被 润 查 者 不 了 解 情况 , 或 者 其 率 所 提出 的 问题 涉及 到 一 些 敏感 问题 , 或 是 
由 于 茶 些 被 油 查 对 象 出 于 某 种 动机 而 提供 虚假 材 料 . :在 本 节 中 我 们 将 简 
路 地 讨论 这 两 种 出 现 误差 的 情况 . 


10.2.1 调查 误差 的 数学 模型 i 
在 理论 上 我 们 可 以 对 第 多 个 单位 进行 次 重复 测 查 并 作 计 量 , 令 ys 

为 第 汪 次 重复 计量 中 所 得 数据 , 它 可 以 表示 为 
. Sn 一 Hi 十 ea 《10 .31 
其 中 jm 为 第 5 单位 某 指标 的 真实 数据 ， 而 se 则 为 对 第 单位 第 a 次 证 
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量 时 的 观测 误差 ， 一 般 讲 来 ,eu 将 遵从 一 个 分 布 ， 辟 如 一 般 的 测量 误差 
依照 误差 理论 服从 一 个 正 态 分 布 ， 设 ew 一 局 ,假如 B; 一 0, 那 末 只 要 对 
第 个 单位 多 重复 计量 几 次 ， 根 据 大 样本 理论 所 得 的 平均 值 就 可 在 相当 
程度 上 接近 于 真 值 由 ， 如 果 记 双 0， 那 末 就 宕 示 在 观测 中 出 现 了 一 定 的 
系统 误差 。 需要 指出 ，, 以 及 误 莽 eis 的 方差 o3 不 仅 与 计量 工具 有 关 ， 
还 常常 与 所 调查 的 指标 在 关 ， 尤其 是 在 以 人 为 总 体 的 菜 些 指标 的 调查 
中 , 出 于 政治 .经济 等 诸 方 面 的 因素 , 8: 常常 不 为 零 . 

对 于 固定 的 多 显然 偏差 B, 是 个 常量 ， 但 是 随 荐 的 不 同 ，B; 也 不 
同 . 车 吾 B=B， 则 户 称 之 为 所 有 调查 单位 的 常数 仿 差 。 痰 量 (8; 一 B) 也 
将 遵从 一 个 分布 。 偏 差 的 这 一 组 成 与 真 值 jw 有关 , 例如 在 实际 观测 中 高 
侨 或 低估 了 真 值 ps. 车 记 seo 一 局, 则 对 于 每 一 国定 的 (40. 并) 式 
可 以 表示 为 




















put+Bt(B—B) +. (10.22) 
按照 gu 的 定义 ， 它 表示 了 对 每 一 固定 的 6， 进行 观测 时 误差 中 的 波动 部 
分 , 它 与 6a 具有 同 祥 形状 的 分 布 , 只 不 过 其 期 望 为 0. 

最 简单 竟 铺 癌 是 : 对 于 所 有 的 i.%。 观测 值 yx 是 独立 获取 的 。 但 在 
社会 经 济 的 抽样 调查 中 未 必 达 到 这 一 点 。 园 一 单位 的 不 同 次 观测 以 及 不 
辕 单位 之 则 的 观测 变量 都 有 可 能 在 一 定 程度 上 相关 ， 这 往往 由 人 的 因 
素 环 境 的 变化 等 等 原因 所 造成 , 尤其 是 抽样 调查 是 对 一 些 社会 经 济 现象 
的 观测 ， 荣 些 事物 之 闻 本 扇 就 存在 着 的 相关 性 是 不 以 调查 者 的 意志 所 转 
移 的 .例如 观察 证 券 市 场 的 股价 变化 ， 每 一 种 股票 的 若干 次 价格 记录 是 
有 一 定 的 相关 程度 , 而 各 种 股票 的 股价 之 同 也 明显 地 存在 着 相关 性 , 某 些 
股票 的 股价 上 升 会 引起 其 他 有 些 股价 的 波动 、 另 一 种 稍稍 不 同 的 模型 措 
述 是 以 而 及 








ByialD) nt PB (10.28) 
表 东 的 ，MW 实 硕 上 是 对 第 5 个 单位 若干 次 重复 计量 的 平均 ， 央 此 模型 
可 生成 





Wat (eia— Po) 一 由 十 Ba (10.24) 
Gin 是 第 2 个 弟 信 (或 被 甸 查 者 ) 对 调查 作 的 若干 次 网 答 所 产生 的 关内 称 
之 为 回答 离 差 (response deviation)， 著 记 所 一 一 pp 而 变量 凤 在 总 


笨 中 的 均值 设 为 上, 上 :为 总 体 均值 的 正确 值 , 那 末 
Ma— t= at os — p+ Cp — 1), {10.25) 





3510.2 调查 误差 B13 


{10.25) 式 关于 样本 取 平 均 ; 
ge—p—dst pT). (10.26) 
于 是 得 到 均 方 误差 公式 : 
MIE (YO) VU) TV HN TO — 1) + AOov (da, 1) ， 
(10.27) 
《10.27) 式 有 端 各 项 分 别称 作 外 答 方差 .抽样 方差 与 偏 生 圩 方 ,而 第 4 项 
的 协 方差 , 由 于 在 模型 中 如 (diw1i) 一 0, 因此 该 项 一 般 取 值 为 零 . 
以 下 研究 调查 误差 数字 模型 中 各 组 成 部 分 的 影响 以 及 误差 方差 的 评 
信 ; 
(一 ?所 有 单位 的 常数 企 差 B, 如 果 存 在 的 话 , 那 末 对 样本 均值 等 显然 
有 一 定 影 响 ， 而 对 于 相应 方差 ， 由 于 其 形式 为 (yg 一 9) 的 平方 和 ， 在 均一 
次 中 常数 偏差 恰 被 抵消 ， 因 此 方差 估计 不 受 常数 偏差 的 影响 ， 对 于 其 他 
常见 前 一 些 佰 计量 ， 上 述 结论 几乎 也 成 立 ， 即 常数 偏差 8 的 存在 使 估计 
其 也 产生 偏差 , 但 佑 计量 的 误差 方差 并 无 影响 。 这 一 点 是 不 难 理 解 的 , 因 
为 我 们 所 处 理 的 悄 计 量 常 常 可 以 近似 地 表示 成 观测 值 的 茶 种 函数 的 列 值 
形式 ， 
但 是 , 仅 从 样本 资料 本 身 不 可 能 查 出 常数 偏差 , 因为 每 一 个 样本 几乎 
都 有 一 个 定量 的 移动 ， 只 能 使 人 们 对 总 体 的 有 关 指 标 产 生 误导 而 根本 元 
法 觉察 。 在 这 种 情况 下 , 历史 资料 .经验 常 识 等 也 许可 以 帮助 我 们 区 分 出 
较 显 著 的 常数 偏差 8. 
(二 ) 考 呀 最 简单 的 情况 ， 即 所 取样 本 中 调查 误 凑 是 互 不 相关 的 ， 由 
《10.37) 式 , 易 知 





Vlyo)—V a) HVE). (10.28) 
具体 实施 时 ， 先 将 某 样 本 经 若干 次 重复 调查 所 得 的 数 伪 平均， 然后 再 对 
不 同 简单 随机 样本 取 平 均 .、 令 玉 (dia) 一 3， 对 于 具体 一 组 样本 (gi …， 


名 ) 有 1 aa 
一 (10.39》 


考虑 色 每 个 单位 入 拌 的 可 能 性 为 -她 , 则 有 
NW 
x Sp —p)? 
TGD)- 击 宇 t 信 - 放 ) 卫 一 Gto.s0) 
ei ot B32,. (C10.81) 
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如 时 采用 通常 简单 随机 抽样 估计 方差 的 方法 ; 
网 Se a)? 








gy) Lf ge Lf . 世 } 
Vy) 一 一 下 人 5 ， {10.32) 

由 于 
ea — Ya— (Tia— Ba) + (pe —H), (10.33) 

于 是 
Ev(ys) -2 of 二 8 {10.84} 


假如 =/ 和 当 小 ， 与 (10.34) 式 相 比 ， 我 们 可 以 认为 v3s) 几 平 是 


有 (go) 的 无 偏 舍 计 - 
三) 考虑 了 ga 为 互 不 相关 的 情况 之 后 , 我 们 当然 要 研究 样本 中 各 单 


位 ge 之 间 相 关 的 情况 , 此 时 





可 = 下 (这 可 二 训 ds 2) (10.35) 

因此 
Vd) = BE(ds) 

-二 ot Bldudia) 公交 及， (10.86} 

定义 样本 内 相关 系数 为 
pu Bia ds} /03, (10.37》 

代入 (10.36) 式 , 得 

PS) -Gt ml)po]. (10.38) 


式 中 玉 (G。) 称 为 总 回答 方差 ,03/m 称 为 前 单 回答 方差 ， 而 (nn 一)pwo3/n 
称 为 总 回答 方差 中 的 相关 分 量 . 
假如 Qov《5。, 一 0, 则 (10.81) 式 成 为 





VD) -RT Del + LL 8g. (10.39) 
采用 通常 的 估计 方差 形式 (10.32), 则 其 期 望 为 | 
Bo(go) = [os —po) + 8 (10.40) 


对 于 许多 种 调查 误差 pw 很 可 能 是 正 的 ， 即 当 某 单位 的 调查 误差 把 现 正 
差异 的 话 , 常常 引起 另 一 单位 也 具有 正 差异 的 调查 误差 在 这 种 情况 下 >。 
利用 wtyo) 米 售 计 玉 (9o) 常 常 偏 你 . 
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样本 之 疗 调查 误差 的 相关 问题 常见 于 “调查 员 问 题 "， 龙 其 是 调查 员 
处 理 的 是 一 些 涉及 意见 性 或 济 断 性 方面 的 定性 内 容 时 ， 更 容易 产生 和 桩 本 
之 间 词 查 误 差 的 相关 - 
对 上 述 沽 种 情况 作 一 归纳 , 得 到 
MSG — {S24 oan — ol} + A (10.41) 


其 中 用 一 上 十 

在 公式 (10 ,41) 中 , 随 着 样本 量 % 的 不 断 增 大 ,52m 及 53L 一 pe)ym 
随 之 越 来 越 小 .但 是 另外 两 项 8? 与 ofpw 并 不 随 m 的 变化 而 变化 ， 在 实 
际 操 作 中 , 并 非 如 此 简单 .假如 样本 容 甚 % 机 当 大 , 我 们 在 大 规模 的 调查 
中 很 可 能 会 在 具体 计量 的 方式 中 有 所 改变 , 因为 在 费用 、 时 间 消 耗 以 及 数 
据 处 理 方 面 ，m 的 天 小 不 同 对 调查 很 有 影响 . 这 种 计量 方式 的 改变 白 然 
影响 了 局 与 po 的 数值 。 赁 直观 想象 ， 如 与 pw 的 这 种 变化 一 般 比 起 nn 来 
是 较 缓慢 的 ， 因 此 , 在 大 欧 样 本 量 中 , 这 机 项 成 了 MS 的 主要 组 成 部 分 ， 
相对 地 ， 抽 样 方差 反而 显得 不 太 重 要 .。 此 时 用 MSE 以 评 信 信 计 的 精确 
性 就 有 些 欠 有 ， 











10.2.2 几 种 处 理 方法 


由 于 调查 误差 的 产生 引起 估计 基 的 偏 倚 以 及 影响 对 估计 量 的 真实 正 
确 性 作出 判断 ， 因 此 对 调查 误差 的 研究 引起 了 人 们 的 注意 .其 中 可 能 出 
现 的 间 题 是 各 种 不 同 的 调查 所 产生 的 调查 误差 是 不 一 样 的 , 要 处 理 好 “ 调 
查 误差 ”的 影响 需 因 地 制 宜 . 

最 理想 的 方法 是 完全 取得 正确 数据 ww, 但 是 这 种 在 理论 上 行 得 通 的 
学 情 , 在 实际 中 往往 未 必 遂 人 心愿 因为 它 涉及 到 费用 、 时 间 等 问题 , 而 
且 在 计量 过 程 中 , 很 少 有 哪些 器 具 使 之 不 产生 任何 误差 . 

在 无 法 保证 能 取得 正 克 数据 jw; 的 情况 下 ， 我 们 只 得 另 辟 途 径 ， 或 者 
是 用 更 正确 可 车 的 方法 重新 计量 ， 或 者 利用 横向 或 级 向 的 比较 ,，〈 即 比较 
两 个 总 体 的 局 一 指标 , 或 者 比较 同一 总 体 不 同时 期 的 同一 指标 等 等 )， 从 
而 对 调查 计 呈 偏差 避 至 少 有 个 粗略 的 估计 ， 再 接 下 去 的 处 理 就 是 对 样本 
估计 量 的 方 莹 的 各 组 成 部 分 (例如 抽 震 方 莽 及 回答 方差 等 ) 作 出 数量 上 的 
估计 . 

、 随 宙 子 抽样 方法 
假如 有 五 个 调查 员 对 某 总 体 进 行 一 次 抽样 调查 , 规定 每 人 完成 m 个 
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单位 的 计量 .为 了 评估 这 次 调查 的 质量 , 通常 所 采用 的 方法 是 从 这 五 个 
调查 员 中 随机 抽取 上 个 ， 再 组 织 上 个 具有 同样 训练 素质 的 调查 员 对 他 们 
各 自 完成 的 调查 单位 重新 调查 . 

现在 考虑 茶 一 对 调查 员 记 调查 的 数据 ， 设 由 他 们 调查 第 名 个 单位 后 
所 得 的 数据 分 别 记 为 yu,3i2G 一 ,3,…'，m), 按 数 学 模型 ， 

or 一 ge (t=—1, 2), (10.42) 

正如 在 第 9 章 中 所 介绍 的 那样 ，wiz 与 ys 之 间 的 差 的 平方 提供 了 该 单位 
调查 误差 方差 的 信息 ， 将 这 对 调查 员 所 调查 的 单位 得 到 的 数据 差 平方 加 
以 平均 ， 

















Py 2 
本 于 本 |- do oovcan, ao). (10.43) 
现在 提出 如 下 假设 

(DD) 关于 同一 单位 的 回答 误差 Bi 与 ds 不 相关 ; 

(2) 第 工 次 调查 人 员 的 简单 回答 方差 o3 与 再 调查 人 员 的 简单 回答 
方差 o3 相等 . 

上 述 假 设 忆 )、(2) 在 通常 情况 下 具有 一 定 的 合理 性 .。 因为 我 们 总 是 
假定 前 后 两 次 调查 人 员 的 调查 是 独立 进行 的 , 这 一 点 保证 了 (了 的 成 立 . 
而 两 位 调查 人 员 具 有 同样 的 训练 素质 则 保证 了 假设 (2) 的 成 立 . 

在 假设 (DD、 (2) 成 立 情况 下 ， 公 式 (10.42) 提 供 了 oo, 的 一 个 良好 估 


计 ， 由 于 马 (wu -ye)”/am 是 仅 对 一 对 调查 员 面 言 ， 只 要 将 上 对 调查 员 


相应 前 公式 相 加 再 平均 就 成 为 oj 的 估计 量 . 

当然 也 存在 着 假设 不 成 立 的 情况 , 例如 被 调查 者 在 第 二 次 调查 中 仅 
仅 依靠 回忆 第 一 次 回答 的 内 容 , 而 不 是 “重新 独立 "地 考虑 回答 的 内 容 , 此 
时 显然 获取 了 正 的 协 方差 Oov (es Ba), 这 样 利用 个 30 一 sa)PA3m 
的 平均 去 估计 o& 会 发 生 “ 低 倘 ” 现 象 . 

为 了 利用 随机 子 抽样 方法 对 调查 质量 作出 怜 当 评 估 ， 尽 量 使 假设 
全 ~ 侈 成 立 是 值得 的 。 就 组 织 考 而 言 ， 不 让 第 二 个 调查 员 了 解 第 一 次 调 
查 的 结果 也 许 是 有 益 的 . 

二 、 交 叉子 样本 方法 

除了 简单 回答 方差 之 外 ， 我 们 还 需要 对 总 回答 方差 中 的 相关 分 量 有 
所 了 解 . 由 数理 统计 学 中 方差 分 析 的 知识 , 为 了 分 解 出 方差 的 各 种 成 分 
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最 好 是 将 方差 估计 公式 中 的 平方 和 进行 类 似 于 组 内 高 差 与 组 间 离 差 等 部 
分 .在 抽样 调查 中 , 相应 的 较 好 方法 无 非 是 将 样本 随机 分 为 基干 组 , 然后 
由 不 同 的 调查 员 独 立地 对 每 组 进行 调查 , 这 就 是 所 谓 的 “交叉 陆 机 子 柚 祥 
方法 ”具体 实施 如 下 ; 

mn 个 待 调查 的 样本 单位 随机 地 分 为 个 子 样本 ， 每 个 合力 一 n/N 要 
如 名 可 以 被 上 整除 的 话 ) 个 单位 ,假定 这 不 个子 样 本 的 单位 之 间 不 存在 调 
查 误差 的 相关 狂 , 这 一 点 在 许多 场合 是 容易 做 到 的 ， 不 然 的 话 , 在 划分 上 
组 时 应 将 这 个 因素 考虑 进去 ， 指 派 加 个 调查 员 分 别 对 这 无 个 子 样本 进行 
调查 , 调查 一 般 是 独立 执行 的 ， 因 此 , 不 同调 查 员 之 间 不 存在 调查 误差 的 
相关 这 一 候 设 是 合乎 情理 的 ， 现 在 建立 数学 模 王 如 下 ， 

Yuya = Mis + esas (10.44) 
其 中 名 表示 第 个子 样本 (或 第 个 调查 员 )，j 表示 该 子 样 本 中 第 了 个 
单位 ， 在 第 6 组 内 , 由 (10.38) 式 得 
V (Gio) = {8+ ot (m1)pw]}, C10.45) 


这 里 的 pw 是 指 同一 调查 员 所 得 Bwa 之 间 的 相关 ， 
由 于 各 不 同 子 样本 中 调 查 误差 的 独立 性 , 易 得 


VC) = 二 Ve) 











一 二 88. 二 os 二 (一 Doo3} (10.46) 


如 (10.33) 式 所 述 ， 对 玉 (gs) 的 估计 和 常 采用 对 (ys 一 9)? 滋 上 某 一 澡 数 天 
子 的 形式 , 在 交叉 随机 子 抽 样 模型 中 , 荆 (gio 一 3。 壮 成 于 玉 / (ira 一) 
则 有 
一 六 总 (ywa 5 )? 

一 高 总 (v5 tm 本 CB 5) 

人 ASS+S83. (10.47) 
显然 ，S% 的 自由 庆 为 mm 一 1), 8 的 自由 度 为 一 I， 经 简单 的 期 望 运 
算 , 得 





ESL /hm—1)— 8+ oi — pw), (10.48) 

ESI/(F—1)— 823ios[it+ Cm—1)po]. (10.49) 

因此 ， 在 本 模型 中 可 以 利用 交 丸 随机 子 样 本 平方 和 Si/BpmC% 一 1) 作 为 
(gs) 的 无 偏 信 计 。 而 大 《10.48).(10.49) 式 可 以 看 到 
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B[ SB/ (h—1) ml) | -asp (10.50) 
这 药 含 了 总 回答 方差 的 相关 分 量 可 以 利用 交叉 随 祝 子 抽样 信 计 量 [S3/ 
《一直 一 S/F 一 4)]/mr。 当然 也 可 以 估计 出 相关 分 晤 在 总 回答 方差 
中 质 占 的 份 














10.2.3 数值 异常 情况 

在 抽样 调查 中 , 数据 方面 的 缺陷 除了 无 回答 、 亩 查 误差 等 以 外 , 还 存 
在 着 数值 异常 现象 ， 所 谓 “ 数 值 异 常 * 是 指 调查 所 获得 的 数据 超出 正常 范 
四 之 外 ， 这 种 现象 是 出 一 些 重大 事件 或 某 些 异常 因素 引起 的 ， 数 值 异 党 
现象 大 致 分 为 两 种 ,一 种 是 数据 昌 马 异常, 但 却 是 真实 前 ， 例 如 在 调查 部 
分 地 区 经 济 现状 或 该 年 度 生 产 总 值 时 ， 愉 迷 某 入 选 样本 在 亩 查 期 发 生 了 
庆 重 白 然 灾害 , 此 时 我 们 手中 获得 的 资料 总 然 号 “异常”, 但 它 在 事实 上 反 
映 了 回 题 的 本 来 面 和 月 。 这 一 类 异常 的 数据 往往 在 第 一 次 调查 时 就 会 被 发 
觉 , 或 者 通过 再 调查 核实 时 被 发 觉 , 并 找到 成 因 ， 第 二 种 异常 数据 是 人 为 
地 制造 的 , 例如 偏离 实 味 的 虚报 , 应 付 任务 式 的 编造 等 等 ， 这 种 数据 属于 
“伪劣 “数据 , 会 对 扫 样 推断 的 结果 产生 很 大 的 偏差 及 影响 . 

关于 如 何 发 现 与 判断 数据 是 否 异 常 的 问题 ， 通 常 只 有 比较 样本 数据 
的 整体 变化 才 有 可 能 确定 ， 有 时 也 利用 历史 样本 以 及 经 验 进 行 判断 ， 饮 
如 调查 小 麦 的 亩 产量 , 发 现 个 别 数据 值 为 5000 公斤 (假设 ), 从 纵向 (历史 
上 小 麦 调 产量 ) 及 横向 (附近 地 区 所 得 小 麦 亩 产量 的 抽样 数据 ) 作 比较 , 它 
均 表 现 为 “突出 值 *, 我 们 就 有 理由 怀疑 该 数据 的 真实 性 , 并 作出 删 去 或 再 
调查 核实 的 决策 。 在 实际 的 抽样 调查 中 ， 上 由 于 我 们 调查 的 数据 有 些 涉及 
到 该 单位 的 机 审 等 事宜 ， 有 可 能 发 生 人 为 的 虚报 假 报 . 故我 们 在 一 次 调 
查 中 常常 不 是 只 调查 一 个 指标 而 是 要 调查 若干 个 指标 ， 注 意 到 在 社会 经 
济 中 许多 指标 之 间 存 在 着 一 定 的 相关 .从 以 前 的 或 其他 的 调查 中 ,我 们 
常常 可 获知 这 些 指 标的 相关 程度 的 数量 上 的 估计 (至 少 是 粗略 的 估计 ). 
这 种 知识 对 我 们 及 时 发 现 一 些 人 为 的 故障 可 提供 帮助 ， 我 们 曾 在 31998 
年 殷 助 有 关机 构 对 企 事 业 的 工资 人员、 福利 等 作 过 抽样 调查 ， 发 现 菜 些 
单位 所 填报 表 的 各 项 指标 中 有 明显 不 符合 常识 的 相互 关系 ， 因 此 断定 这 
些 单位 记 提 供 的 数据 属 “ 虚 的 ”的 , 如 果 不 作 处 理 , 是 无 法 采用 的 .这 个 简 
单 的 事实 启示 了 我 们 , 如 果 巧 妙 地 设计 调查 表 , 兆 其 是 巧妙 地 插入 一 些 相 
关 的 指标 ， 有 时 能 及 时 发 淆 基 些 人 为 的 永 假 篇 造 。 当 热 要 焉 正好 社 绝 这 
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种 人 为 的 虚假 数据 , 应 当代 助 于 “统计 法 ”的 立法 及 健全 ， 

对 于 异常 数据 的 处 理 , 无 非 是 删除 或 者 在 可 能 的 情况 下 作 再 调查 . 对- 
“伪劣 ”数据 必须 删除 ! 因为 它 对 抽样 推断 起 着 破坏 性 的 影响 ， 但 对 于 第 
一 类 的 异常 数据 采用 删除 方式 要 慎重 , 因为 它 毕 竞 反映 了 一 定 的 信息 ,对 
于 数值 异常 问题 的 研究 正在 如 起 国内 外 有 关 学 者 的 重视 . 


$10.3 敏感 性 问题 的 调查 


10.3.1 敏感 性 问题 的 调查 与 随机 化 同 答 


在 社会 经 济 调查 中 ， 有 时 提出 的 一 些 问 题 是 属于 乌 感 性 的 或 高 度 私 . 
人 绝密 的 内 容 .例如 在 调查 科 按 人 员 的 流向 及 有 关 意 愿 时 , 被 调查 者 出 于 
种 种 原因 , 不 愿 在 流动 之 前 坦 露 自己 的 意向 , 以 免 在 原 工作 单位 造成 不 必 
泌 的 麻烦 。 如 果 我 们 的 调查 内 容 仅 仅 限 于 是 否 想 离开 原单 位 ， 而 且 我 们 
能 够 设计 一 种 方案 , 做 到 被 调查 者 可 以 作出 真实 回 管 又 能 保守 私人 秘密 ， 
那 末 这 个 问题 就 得 到 圆满 解决. 

Warner《1965) 曾 针 对 仅 有 “是 ”或 “和 否 ” 两 种 回答 的 调查 { 自 的 是 获得 
总 体 中 “是 ”的 比例 ) 设 计 了 一 种 随机 化 装置 达到 了 上 述 目 的 .基本 思路 
如 下 ， 

对 于 mn 个 被 调查 者 中 的 每 一 个 以 概率 了 了 及 (I 一 了 ) 提 出 两 个 截然 相 
反 的 问题 , 例如 “我 挝 成 某 事 ”或 “我 不 链 成 共事 ”Warner 装 冯 的 巧妙 之 
处 在 于 调查 人 员 无 法 知道 被 调查 人 员 在 回答 哪个 问题 ， 要 做 到 这 一 点 并 
不 难 ， 饮 如 只 要 准备 几 张 折 松 白 纸 ( 折 肥 以 后 外 形 完 全 一 致 )) 以 了 上 比 
代 一 克 ) 的 相对 毕 便 在 每 张 纸 内 窟 上 提出 的 两 个 问题 之 一 ， 被 调查 者 随 
机 地 措 歌 一 张 纸 回 答 , 但 调查 人 员 郑 权 查 看 纸 条 上 的 问题 。 对 所 提出 的 
问题 , 被 调查 人 员 只 有 两 种 选择 “是 ”或 “ 否 ” 他 可 以 将 红 球 (表示 “是 ") 或 
自 球 (家 示 “ 否 ”) 投 进 一 个 密封 欧 口 找 中 ， 整 个 投球 过 程 也 是 调 家 人 员 所 
看 不 到 的 . 如果 疝 被 调查 者 讲 清 Warner 方案 的 具体 作法 以 及 严格 地 依 
照 此 方案 进行 调查 的 话 ， 那 末 就 容易 使 被 调查 者 确信 他 或 她 参加 了 这 次 : 
调查 但 绝 不 会 泄露 自己 在 这 个 针 感 性 问题 中 的 态度 。 

假如 所 得 红 球 为 mw 个 ， 那 末 总 体 中 国 答 “ 是 ”的 比例 pg 显然 可 以 用 分 
一 m/n 作为 信 计 量 . 而 梳 率 统计 常识 告诉 我 们 ,总体 中 “ 园 成 基 事 ”的 比 
全 mw 与 9 及 忆 具 有 下 述 简单 的 关系 式 : 

PPrt( -PTo)= (Ptst+(i-P). (10.5ty 
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式 中 卫 是 调查 者 自己 在 方案 制定 中 所 确定 的 已 知 数 ， 因 此 ， 按 照 关系 式 
《10.54) 可 以 得 到 佑 计量: 

4- [£3 (P#1/2). {10.59) 


注意 到 间 实 质 上 是 二 项 分 布 中 成 功 概 率 PP 的 家 大 似 然 估计 与 无 偏食 计 ， 
因此 会 当然 是 严 的 极 大 似 然 估 计 与 无 仿 估 计 , 其 方差 不 难 求 得 为 ; 


人 一 _ 多 位 一 旬 )》 
7 nm 
如 果 将 (I 一 9) 写 成 
工 一 9 一 (3 已 一 二 ) (i -2+ (~P), (10.54) 
则 可 求 得 
VOR) Tw) | P(t-P) 
F (+ i (10.55) 


六 ( 生 中 的 第 一 项 表示 了 假定 对 所 有 个 被 调查 首都 直接 提问 “是 否 先 成 
某 事 ” 并 且 这 mm 个 被 调查 者 都 如 实地 回答 了 这 个 敏感 性 问题 后 ， 从 而 得 
到 严 的 知 计 今 所 应 具有 的 方差 而 (40, 上 中) 式 右 端的 第 二 项 一 般 说 来 ( 除 
去 严 非常 接近 于 I/a, 而 一 >0.85 又 同时 成 立 移 情况 ) 比 第 一 项 大 得 多 . 
这 家 明了 使 用 Warner 方案 后 得 到 于 的 估计 会 一 般 来 说 精确 度 很 差 ， 这 
一 点 不 难 想 象 ， 因 为 调查 员 看 到 的 红 球 数 由 于 提问 的 随机 狂 而 不 能 知道 
这 是 不 是 “ 链 成 某 事 "的 人 数 或 者 “不 狗 成 某 事 " 的 大 数 .但 由 于 记 提 问题 
的 敏感 性 ， 这 个 粗糙 的 估计 总 比 被 调查 者 拒绝 回答 或 给 予 一 个 “伪劣 ”性 
质 的 回 管 要强 得 多 .Warner 在 理论 上 还 证 明了 在 涉及 敏感 性 问题 的 调 
查 中 , 他 的 方法 比 直接 提问 调查 的 均 方 误差 (CMS 也 ) 小 . 



































I0.3.2 Simmons 问题 


Warner 方法 的 成 功 与 罕 取 决 于 被 调查 者 确信 自己 的 态度 没有 公开 
暴露 从 而 辕 意 采取 合作 的 态度 。 Mimmons 提出 (Horvitz，Shah and 
Himmons, 1967) 如 果 将 第 二 个 问题 改 为 与 第 一 个 问题 训 无 关系 , 也 许可 
以 政 进 被 调查 者 的 合作 程度 ， 例如 第 一 个 陈述 仍 为 “我 多 成 菜 事 ”车 将 
第 二 个 陈述 改 为 “我 的 生肖 属 狗 ”， 调 查 过 程 仍 采 用 Warner 的 随机 化 问 
答 ， 明 显 地 , 比 起 前 一 节 来 , 这 里 第 二 个 问题 几乎 与 第 一 个 问题 无 关 , 另 
一 个 不 同 点 是 证 查 者 对 总 体 生肖 属 狗 的 比例 可 能 是 清楚 的 ， 比 如 大 概 为 


襄 ; 即 对 第 二 个 陈述 回答 “是 ”的 人 在 总 体 中 的 比例 w' 为 已 短 , 此 时 
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p= Prat (1 Pe’, (10.56) 
央 此 , 感 兴趣 的 比例 严 的 极 大 似 然 估计 量 为 ; 
后 一 -0 (10. 克 )》 
相应 方差 为 
六 (人 ) 一 2 . 《10.58) 


有 趣 的 一 点 是 ，Dowling 与 Shachtman (1995) 证 阴 了 当 了 > 填 ( 注 
意 卫 光洁 ) 时 ,不 管 w 与 mw 如何， 则 用 Simmons 方法 得 到 的 命 的 方差 将 
小 于 用 Warner 方法 估计 量 攻 的 相 放 方差 , 也 就 是 说 , 同样 是 极 大 似 然 售 
计 ， Simmons 方法 在 卫 > 吉 ( 了 去 ) 情 况 下 要 精确 一 些 . 


锁 车 对 第 二 个 问题 (或 陈述 ) 回 答 “ 是 ”的 人 在 总 体 中 所 占有 的 比 创 
到 元 法 知道 ， 那 末 我 们 将 面临 两 个 未 知 的 wm 及 mw"， 最 好 的 办 法 当然 是 通 
过 两 组 祥 本 (容量 分 别 为 wz, "ra) 来 解决 , 假如 这 两 组 祥 本 中 提出 逢 感性 同 
题 比 例 分 别 为 下 与 卫 s， 而 or 与 9s 分别 表示 相 应 于 了 P 与 Ps 的 在 总 体 
中 回答 “是 所 占 的 比例 , 于 是 有 























pi= Pim + (1 Pamn， (10.59) 
a= Pont (1 — Paw, {10.60) 
这 样 可 以 得 到 
人 于 一 (一 Ps:) p(TI—P) 人 3 2, (10.61) 
其 六 差 为 8。 
1 BCI 一 2) 代 一 Pa ,goll— ga) (1— PP 
(0) -tp py ma 十 四 ]. 


(10.62) 

洪 实 , 从 (10.59)、(10.60) 式 同样 也 能 解 出 的 佑 计量. 这 意味 着 

通过 两 组 样本 调查 , 我 们 可 以 同时 对 两 个 无 关 的 敏感 性 问题 作出 估计 (如 

具 需要 的 话 )、 但 是 在 实 幅 中 事情 并 非 那么 简单 , 因为 要 求 被 调查 省 同时 

对 两 个 或 更 多 的 敏感 性 问题 到 示 自己 的 态度 ， 容 易 引 起 怀疑 从 而 出 现 拒 
绝 回 答 或 虚报 回答 等 不 合作 现象. 


10.3.3 数值 例子 
为 了 解 目 前 一 些 青年 学 生 对 某 些 课程 感 兴趣 的 程度 ， 可 以 通过 抽样 
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调查 的 手段 解决 ， 但 是 必须 注意 到 我 们 所 提出 前 问题 常常 是 个 敏感 性 阿 
题 , 因为 它 涉及 到 有 些 学 生 对 该 课程 的 任课 老师 或 其 他 一 些 问题 的 忌讳， 
尤其 是 对 有 些 政治 课程 的 提问 , 更 带 有 敏感 性 质 . 

例如 我 们 的 陈述 为 “我 对 社会 主义 思想 教育 课 感 兴趣 ”以 及 “我 对 社 
会 主义 思想 教育 课 不 感 兴趣 ”, 对 此 敏感 性 前 问题 我 们 采用 Warner 方案 


处 理 , 预先 指定 的 也- 各， 在 接受 调查 并 作出 明确 回答 的 330 人 中 (由 于 


方案 事先 解释 得 清楚 旦 执行 得 认真 ， 我 们 认为 这 320 个 人 都 真实 地 回答 
了 问题 ), 统计 最 后 结果 , 回答 “是 ”的 人 为 156 人 ， 按 照 计算 公式 得 全 一 
.479166 才 0.48， 及 M(t) 约 为 0.047. 

本 例 可 以 采用 Smmons 形式 处 理 , 但 应 注意 到 第 二 个 陈述 的 合理 选 ， 
择 , 所谓 “合理 选择 ” 需要 注意 下 述 两 点 : 

《一 ) 该 陈述 不 宜 采 用 "暴露 ”性 问题 ， 例 如 “我 是 男性 "这样 的 陈述 叶 
然 与 第 一 陈述 “我 对 社会 主义 思想 教育 课 感 兴趣 ”几乎 没有 太 火 内 在 联 
系 , 但 在 抽样 过 程 中 性 别 问题 本 身 已 经 暴露 , 如 果 采 用 这 样 类 型 的 陈述 很 
可 能 使 被 调查 者 不 愿 确信 调查 的 保密 性 ， 从 而 引起 调查 铺 果 未 必 全 部 真 
实 , 这 是 我 们 不 愿 看 到 的 事情 . 

(二 ) 第 二 陈 还 应 尽量 与 第 一 陈述 无 关 。 这 是 Simmons 阿古 本 庙 的 
一 个 关键 .这 方面 万 一 发 生 差错 将 便 数 学 模型 不 适宜 具体 调查 ， 那 么 就 
不 可 能 利用 ( 吉 .56)、《I10- 穷 ) 式 对 待 估 的 比例 及 其 方 莽 作出 恰当 的 巾 计 ， 
比如 我 们 想 了 和解 青年 中 参与 赌博 行为 的 人 所 占 的 比例 , 显然 , 这 也 是 个 敏 
感性 问题 , 假定 我 们 能 使 被 调查 者 确信 调查 方法 的 保密 是 绝对 可 靠 的 , 那 
么 我 们 提出 的 第 一 个 问题 毫 无 疑问 为 “我 有 财 博 行为 "” 鉴于 该 问题 的 敏 
感性 相当 突出 , 似乎 采用 Simmona 形式 为 佳 ， 因 为 这 样 可 以 使 调 析 者 更 
为 放心 ， 倘 芳 我 们 的 第 二 陈述 采用 “我 参加 娱乐 活动 是 为 了 劳 逸 结合” 
这 两 个 陈述 似乎 有 一 定 关联 ， 因 为 有 些 青年 的 确认 为 嫩 请 是 “ 玩 帝 而 已 ” 
的 娱乐 活动 ， 这 就 有 可 能 干扰 我 们 的 推断 ， 我 们 不 妨 采用 一 个 与 第 一 陈 
述 毫 无 关系 的 陈述 , 比如 “我 的 生肖 属 狗 ” 等 . 


10.3.4 具 多 项 选择 的 敏感 性 问题 的 调查 

前 面 所 讨论 的 有 关 敏 感性 问题 调查 建立 在 回答 只 有 “是 ”与 “ 否 "两 种 
选择 的 基础 上 ， 在 实际 抽样 调查 中 ， 有 些 敏感 性 问题 的 回答 可 以 有 若干 
种 选择 ， 设 想 革 地 区 将 成 甲 、 乙 、 两 三 人 中 推选 出 一 各 代表 ， 该 地 区 的 每 - 
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个 成 人 在 投票 时 有 4 种 互 不 相 容 的 选 状 . 甲乙 .再 或 弃权 .倘若 在 事先 抽 
样 撞 遍 中 , 一 般 人 们 不 愿 过 早 卖 明 自 己 的 态度 , 那么 该 问题 就 是 一 个 有 4 
项 选择 的 敏感 性 问题 ， 本 段 主要 舱 述 具 多 项 违 择 能 策 感 性 问题 的 调查 广 
案 设 计 以 及 有 关 数 学 模型 . 

设 8 是 一 个 镍 感性 问题 ， 对 于 入 的 回答 有 天 种 选择 ， 记 为 4x, 4 
…，Aw. 假定 大 小 为 素 的 总 体 中 对 8 取 回 答 为 4; 的 人 数 为 入 :Ci 一 4 
23, -…, 及, 我们 关心 P 一 NN/N(i 一 1, 9,…, 旭 . 

方案 设计 仍 采用 白 闻 法 , 在 zw 张大 小 ,质地 同样 的 白 委 白 纸 条 上 分 别 
标 上 号 码 0 卫 久 … 妨 其 个 数 分 别 为 ma mss ms mma, 访 mmu= m. 现 


在 设想 被 调查 者 随 宙 地 找 取 一 张 纸 条 ， 其 中 所 标的 号 码 仅 有 被 调查 者 知 
道 , 如 果 籽 摸 到 指标 号 为 0, 那 末 他 必须 依照 自己 真实 的 想法 回 答 4:(i 一 
J，3，…，%), 具体 作法 是 将 手中 唯一 红 球 投 到 个 匣子 中 标 有 4; 的 那 
一 个 , 如 果 他 换 到 纸 条 标号 为 ii 一 工 3,…, 看)， 那 末 他 必须 将 手中 唯一 
的 红 球 投入 标 有 4 的 里 中 而 不 管 他 自己 的 真实 态度 如 何 。 整个 投球 过 
程 均 在 调查 者 无 法 观看 的 情况 下 进行 。 设 所 为 摸 到 标号 为 0 的 纸 条 的 
概率 ， 产 为 肯定 不 是 9 标号 情况 下 , 标号 为 % 一 工 3 …， 有 的 概率 ， 显 




















然 它 是 个 条 件 概率 , 具体 计算 如 下 : 
fo— mo/m, (10.68) 
fid Cm — oo) C10.64) 


以 mn 表示 总 样本 人 数 , 而 ms 则 均 示 在 标 有 4 的 匣子 中 的 球 数 ， ns 
《ma ma …， 9) 是 一 组 随机 变量 ， 假 如 以 qi 表示 在 本 方案 设计 之 下 总 体 
中 每 一 个 人 选择 4 的 概率 ， 那 末 显 兄 同 量 (na， ms，…，nip) 服 从 参数 为 
92， Qn 的 多 项 分 布 : 


nl 





P{TXL— mm, Hens, oy 一 一 Pati 
(10.65) 
其 中 ,表示 随 栅 化 回答 中 取 4; 的 随机 人 数 , 而 
foPt (fof: G=1,2,.., FE), 《10.66》 
从 (10.66) 式 解 得 
PR (i-1, 2, …, PD). (10.67) 


显然 g; 可 以 用 名 一 mfr 合计, 因此 
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PD- GL (人 一世 a, .…, H). (10.68) 
o 


利用 多 项 分 布 (10.65) 式 的 性 质 ， 也 ,服从 成 功 概率 为 % 的 二 项 分 布 ， 因 
此 , 忆 , 是 PP 的 极 大 似 然 估计 及 无 篇 居 计 , 其 方差 为 
PP) LA (i= 1, 2, .DD). (40.69) 


当 &j 时 , 我们 还 可 以 得 到 两 个 估计 多 与 如 的 相关 系数 ， 


PP PD = Ty .20.70) 


第 二 章 
案例 分 析 


§11.1 引 言 


正如 我 们 在 第 1 章 引 论 中 所 说 的 ， 抽 样 调查 历来 是 应 用 最 为 广泛 的 
数理 统计 方法 之 一 ， 随 着 我 国 改 革 开 放 的 不 断 深化 ， 社 会 主义 市 场 经 济 
体制 逐渐 建立 , 人 们 对 各 种 信息 的 需求 日 益 强 烈 , 抽样 调查 被 看 作 是 一 种 
快速 ,经 济 而 有 效 的 获取 资料 的 重要 手段 ， 为 适应 这 种 形势 的 变化 , 我 国 
已 一 改过 去 以 统计 报表 制度 为 基础 的 全 面 调 查 ( 普 查 ) 这 种 单一 的 调查 形 
式 , 初步 形成 了 抽样 调查 与 全 面 调查 互 为 补充 、 祖 输 相 成 的 收集 各 称 统 计 
信息 资料 的 格局 。 而 且 随 着 形势 的 发 展 ,抽样 调查 必 将 愈 显 重要 而 居 主 
导 地 位 . 

最 近 15 年 来 ， 我 国 各 级 政府 部 门 (包括 国 家 统计 局 及 其 他 主管 部 
门 ). 经 济 实体 及 学 术 研究 机 构 以 至 许多 新 闻 单位 与 民间 机 构 进行 了 数 以 
千 百 计 的 目标 多 样 、 规 模 不 等 的 抽 嫩 调查 项 目 ， 根据 抽样 调查 获得 的 数 
据 与 结论 不 断 的 见 诸 于 各 类 报刊 和 其 他 传播 媒介 以 及 内 部 研究 报告 等 . 
就 应 用 领域 看 , 这 些 项 目 几 乎 包 揪 了 社会 ,经 济 , 文化 、 教育、 卫生 和 科学 
研究 等 各 种 领域 .但 在 这 些 项 目 中 , 并 不 是 每 项 都 是 成 功 的 ， 事 实 上 , 一 
项 抽样 调查 , 除了 必要 的 经 费 和 组 织 保证 外 , 它 的 成 功 与 否 主 要 取决 于 它 
的 设计 与 分 析 , 而 这 一 点 正 是 许 乡 人 所 容易 忽略 的 . 不 懂 抽 样 调查 理论 与 
方法 的 人 当然 不 理解 设计 的 重要 性 .即使 学 了 一 些 抽样 调查 理论 的 人 在 
过 到 实际 问题 时 也 往往 感到 束手无策 , 不 能 保证 将 一 项 实际 调查 设计 好 . 
这 是 因为 , 诸如 : 工作 人 员 缺 少 实际 经 验 , 对 于 实际 中 不 同 项 目的 调查 , 出 
于 其 目的 与 对 象 不 同 , 抽样 单元 与 抽样 框 的 形式 各 异 , 投入 的 经 典 及 人 力 
相差 悬殊 等 等 . 因此 ， 对 具体 设计 与 分 析 的 要 求 有 很 大 差别 , 更 不 要 说 它 
必然 受到 种 种 主客 观 条 件 的 限制 了 ， 一 项 实际 抽样 调查 不 可 能 只 采用 一 
种 简单 的 抽样 与 分 析 方 法 ， 而 往往 是 多 种 抽样 方法 有 机 的 组 合 。 对 于 一 
项 大 规模 的 , 例如 全 国 竹 的 调查 区 其 如 此 - 

为 使 读者 对 运用 抽样 调查 方法 有 感性 的 了 解 .” 在 本 章 中 ,我 们 选择 
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了 十 来 项 实际 案例 进行 研究 与 分 析 . 每 个 案例 均 众 绍 了 调查 前 背景 、 目 
的 及 具体 的 抽样 设计 , 大 部 分 还 包括 了 数据 分 析 方 法 , 重点 在 于 总 体 目标 
时 的 合计 与 方差 信 计 ， 有 些 案 例 还 包括 对 结果 的 精度 分 析 和 其 他 分 析 方 
法 等 。 对 每 个 闪 例 , 我 们 都 加 了 评注 , 进一步 引导 读者 理解 设计 思想 , 并 
指出 (如果 存 在 的 话 ) 其 中 不 足以 及 在 条 件 许 可 的 请 况 下 可 以 改进 的 地 
方 ， 半 数 左右 药 案 例 取 操作 者 本 人 的 实践 , 但 也 包括 其 他 一 些 项 目 , 特别 
是 国家 统计 局 制定 的 两 项 定期 的 有 关 农 产量 抽样 洞 查 和 人 口 变动 量 抽样 
调查 以 及 卫生 部 的 国家 卫生 版 务 闪 调查， 全 国 妇联 的 中 国 妇女 社会 地 位 
调查 .作者 稚 订 有 关 部 门 及 设计 者 表示 娟 心 的 感谢 . 

为 保持 每 个 案例 的 原貌, 在 体例 术语 与 符号 方 杆 , 我 们 基本 上 按 原 材 
料 不 变 C 有 时 受 篇 幅 限 制作 了 适当 的 删节 ), 仅 在 最 后 附 上 了 几 段 “评注 ”, 面 
这 些 评注 也 只 是 提出 讨论 , 不 一 定 完全 正确 , 仅 供 参考 . 























$11.2 1991 年 中 国 5 岁 以 下 儿童 死亡 抽样 调查 ” 


5 岁 以 下 儿童 死亡 率 是 卫 量 一 个 国家 是 否 真 正 发 展 的 重要 指标 . 
1990 年 9 月 30 日 在 联合 国 召 开 的 “世界 儿童 问题 首脑 会 议 ” 上 通过 一 系 
列 儿 童 战略 且 标 ,其 中 最 重要 和 第 一 位 的 目标 , 是 到 2000 年 5 岁 以 下 儿 
瘟 死 亡 率 降 低 1/3。 1992 年 3 月 国务 院 转 发 的 “ 九 十 年 代 中 国 儿童 发 展 
规划 纲要 ”提出 的 10 项 战略 目标 中 , 第 一 条 也 是 到 3000 年 5 岁 以 下 儿童 
死亡 率 降 休 1T/3， 然而 全 国 5 岁 以 下 上 几 盏 窗 基 本 还 是 一 个 空白 ， 因 此 卫 
生 部 妇幼 司 决 定 首先 在 全 国 进行 1991 年 中 国 5 岁 以 下 儿童 死亡 抽样 调 
查 ， 以 搞 清 1991 国 5 岁 以 下 儿童 死亡 水 平和 死亡 原因 ,为 实现 九 二 
年 代 战 略 目标 打下 良好 基础 . 在 此 基础 上 从 1992 年 1 月 1 日 开始 进行 
连续 数 年 的 监测 和 动态 观察 . 

一 、 范 围 和 对 象 

在 全 国 30 个 省 、 自 治 区 、 直 辖 市 范围 内 ， 猫 取 部 分 市 、 县 的 部 分 地 区 
作为 洞 查 地 区 , 将 调查 地 区 家 庭 中 全 部 0~4 岁 儿 音 作 为 调查 对 象 . 

调查 地 区 1991 年 孚 满 38 周 , 娩出 后 有 心 号 .呼吸 .脐带 搏动 .随意 肌 
缩 动 四 项 生命 指标 之 一 均 计 为 活 赤 。 1991 年 调查 地 区 5 岁 以 下 儿童 死 
亡 均 域 写 儿 童 死亡 报告 卡 . 


”)， 志 项 调查 由 卫生 部 妇幼 司 主持 ,首都 儿科 研究 所 具体 负责 研究 与 实施 。 作 者 参加 了 抽 
样 设计 工作 .本 节 正 文 取 自 课题 得 研究 总 缚 报告. 
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二 、 抽 样 
1 层 的 划分 : 采用 分 层 抽 样 技术 , 将 全 国 30 个 省 .自治 区 ,直辖 市 按 


池 理 位 置 ( 洲 海内 地 边远). 经 济 发 展 程 度 及 婴儿 死亡 率 高 低 , 分 为 三 大 
上 基 , 其中 四 川 省 分 为 东西 两 部 分 - 
Al1( 沿 海 )， 北京 天津. 上海 .辽宁 山东 .江苏 .浙江 .福建 广东， 
A3K 内 地 ): 吉林、 河北、 河南 .山西 安徽 、. 沽 北 .湖南 广西. 跌 西 、 江 
西 .海南 .黑龙 江 、 四 川 东 部 . 

AS8( 边 远 )。 内 蒙古 .宁夏 . 甘 肃 . 新 疆 、 青 海 .云南 、 贵 州 、 西 藏 、 四 川 

西部 - 

每 层 内 将 市 .县 以 “中 国 卫 生 状 况 分 类 ”为 基础 , 每 居 分 为 六 类 : 即 大 
城市 .中 小 城市 .一 二、 三、 四 类 县 ， 没 海地 区 无 四 类 县 ， 全 败 2377 个 市 
县 共 分 27 小 层 . 

2. 样本 市 县 独 取 : 折 取 市 县 按 以 下 原则 进行 : 

(D 每 层 抽 取 的 市 基数 大 致 与 该 层 市 县 总 数 成 比例 ， 每 层 不 少 于 多 











个 . 

《2) 抽取 的 样本 在 全 国 各 省 .市 ,自治 区 分 布 较为 均 名 . 

(3) 每 层 抽 玫 的 样本 市 县 加 权 和 平均 要 儿 死 亡 率 接近 该 层 加 权 平 均 婴 
儿 死 亡 率 . 

《4) 适当 考虑 抽取 县 的 条 件 . 

按 上 述 原 则 共 抽 取 81 个 市 县 作为 全 国 儿 童 死亡 基础 调查 和 监测 爽 
点 . 全国 81 个 样本 市 县 韵 分 布 , 样本 加 权 平 均 娶 儿 死 亡 率 及 各 层 加 权 平 
区 婴儿 死亡 率 如 表 霸 - 工 所 示 . 


表 11.1 儿童 死亡 监测 市 县 分 布 及 各 层 楼 儿 死 亡 率 (IMR) 


















































地 区 大 城市 中 小 城市 ”一 类 县 ”二 类 县 ”三 类 县 ”四 类 县 ”合计 

沿 祥 本 数 5 5 6 3 3 22 
样本 IMR 13,2 187 283-5 18.6 21.6 

每 层 IMR 13.4 18.5 22.8 21.8 19.5 

认 ” 祥 本 数 2 9 6 10 9 号 88 
样本 IMR 18.4 19 .3 27.6 33.4 34.2 50.2 

地 层 EMTR 18.4 21.8 28.2 33.3 233.3 59.0 

边 ” 样 本 数 2 2 2 4 8 3 21 
样本 IMR 28.2 53.7 49.1 dr.6 54.9 98.8 

远 屋 IMER 24.8 46.0 46.1 50.7 56-8 91.1 

合 9 16 14 17 20 5 B81 


28 第 iI 章 案 讽 分 析 


3， 衬 本 总 量 ， 样 本 量 汉 按 下 式 计算 ， 
1.96 1 ”2 是 合计 死亡 率 9 一 工 一 2p， 
下 ] we，a 为 设计 夭 座 -2.5 大. 
报 据 以 上 公式 达到 设计 精 庆 要 求 大 层 样本 量 为 200 万 左右 ， 按 大 层 
及 城乡 分 别 计算 样本 总 量 应 不 少 于 600 万 人 . 
根据 各 层 儿 童 死亡 率 的 差异 及 监测 条 件 等 多 种 因素 ， 抽 中 市 县 样本 


人 口 数 为 : 
大 城 市 ，15~30 万 ， 二 奖 其 ， 5 万 ， 
中 小 城市 ，8~15 万 ， 三 奖 县 ; 生 万 ， 
一 类 县 ，5.5 万， 四 类 县 ，3 万 。 

对 ， 区 、 乡 抽样 : 


抽 中 市 其 前 总 人 口 均 大 大 超过 所 需 的 祥 本 量 ， 需 进一步 随机 整 群 抽 
样 。 城市 通常 一 个 区 即 达 到 或 超过 规定 样本 量 , 一 般 随 机 抽取 一 个 城区 
(不 包括 郊区 )。 县 中 乡 、 镇 数 较 多 ， 一 个 乡镇 不 能 满足 所 需 样本 量 ， 一 般 
要 求 抽样 3 个 或 2 个 以 上 的 乡 (镇 ), 抽样 方法 为 系统 抽样 . 

三 、 资 料 收集 和 质量 控制 ( 略 ) 

四 、 资 料 分 析 方 法 

工分 级 加 权 ， 

(了 DD 由 抽样 地 区 调查 的 儿童 死亡 率 ( 新 生 儿 、 碘 儿 、5 岁 以 下 儿童 )， 
计算 每 小 层 (17 小 宕 ) 加 权 平 均 儿 童 死 亡 率 . 

(2) 由 每 小 层 的 加 权 平 均 儿 童 死 亡 率 , 计算 六 类 地 区 (大 城市 、 中 小 








焉 市 , 一 、 二 . 三 ,四 类 县 ) 加 权 平 均 儿 童 死 亡 率 及 三 大 层 ( 洪 海 .内 地 , 边 
远 ) 加 祝 平 均 儿 童 死 亡 率 . 

(3) 由 六 类 地 区 加 权 平 均 儿 童 死 亡 率 计算 减 市 、 农 村 及 全 国 加 权 平 
均 儿 童 死亡 率 ， 

2. 加 权 计 算 公 式 ; 





以 上 乏 级 加 权 均 以 1983 年 全 国人 口 普 查 备 区 县 人 口 数 为 基础 , 计算 
公式 为 , 
ije 14991 年 调查 地 区 5 岁 以 下 (或 新 皇 儿 、 江 儿 ) 死 亡 数 
Mijk 1991 年 调查 地 区 沙 产 歼 - *1000 知 
Mij= 豆 二 Mi 六 


Mi 六 各 Mij (三 大 层 , 城市 , 全 国 加 权 按 此 计算 ) 
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Mi 了 & 一 调查 地 区 儿童 死亡 率 ，Nijk 一 调查 市 (县 ) 总 人 口 数 
Mij 一 加 权 小 层 平均 儿童 死亡 率 ; Nij= 小 层 中 调查 市 (县) 总 人 口 数 
Mi 一 分 类 (6 类 加权 平 均 包 童 死亡 率 ; .Mt= 分 类 (6 类) 总 人 口 数 
3， 儿童 死亡 校正 率 的 计算 : 
以 乡 、 县 、 省 三 次 核实 补 许 后 ， 省 级 上 报 卫 生 宛 的 1991 年 拙 中 地 
区 医 产 数 和 儿童 死亡 教 作为 基础 调查 数 . 以 首都 儿科 研究 所 对 三 大 层 、 
六 类 地 区 1/3 质量 抽查 发 现 的 1991 年 活 产 和 儿童 死亡 漏 报 数 进 行 校 
正 . 
4. 校正 率 计 算 公 式 ; 


型 校 = 几 童 校正 死亡 率 ， 
9 一 分 类 (分 层 ) 地 区 儿童 死亡 数 ， 
5 一 务 类 (分 层 ) 地 区 活 产 数 ; 
8 基 一 抽查 地 区 基础 调查 儿童 死亡 数 ; 
2% 漏 一 抽查 地 区 漏 报 儿童 死亡 数 ; 
3 基 =- 抽查 地 区 基础 调查 活 产 数 ; 
5 涯 = 抽查 地 区 漏 报 活 产 数 . 

5. 主要 死因 死亡 率 , 分 类 死因 死亡 率 ; 

年 郁 别 主要 死因 死亡 率 及 年 龄 别 分 类 死因 死亡 率 均 按 上 述 方法 进行 
加 权 和 校正 计算 .死因 构成 以 各 省 上 报 的 死亡 卡 进行 计算 分 析 . 

以 年 龄 别 校正 死亡 率 作 为 侈 国 、 各 层 及 各 类 地 区 的 实际 值 。 以 年 龄 
别 校正 死因 死亡 率 作为 各 种 死因 死亡 率 的 实际 值 . 

评 注 

了 当 确 定 要 进行 一 项 抽样 油 查 时 ， 首 要 的 问题 是 样本 的 毛 取 方法 ， 
即 抽 样 问题 。 最 科学 的 抽 祥 方法 是 概率 抽样 即 随机 抽样 ， 但 是 在 某 些 项 
目 中 , 严格 的 概率 抽样 在 实施 中 往往 有 种 种 困难 、 例如 本 例 的 调查 是 一 
项 全 国 性 的 调查 , 必须 首先 对 省 (自治 区 直辖市) 进行 抽样 , 或 直接 对 市 、 
县 进行 热 样 。 但 按 概率 抽样 抽 到 的 样本 有 时 没有 调查 的 条 件 . 在 本 例 中 ， 
儿童 死亡 调查 必须 有 周密 的 组 织 和 较 强 的 力量 才能 保证 结果 的 准确， 因 
此 , 本 合 的 抽样 实际 上 (在 层 内 摘 样 ) 是 一 种 代表 性 的 抽 榜 . 抽 到 的 样本 
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是 总 体 { 全 国 ) 的 一 个 缩影 ， 各 层 样 本 婴儿 死亡 率 ( 历 史 参 考 值 ) 接 过 相应 
层 的 婴儿 死亡 率 ， 在 实际 中 ,代表 性 抽样 还 是 很 有 市 场 的 。 因为 由 此 抽 
得 的 样 林 有 相当 好 的 对 总 体 的 代表 性 .调查 结果 也 比较 可 靠 , 可 信 . 但 
缺点 是 不 能 对 调查 结果 给 出 精度 的 确切 信 计 . 

3) 分 层 是 最 党 用 的 抽样 技术 之 一 本 例 中 的 分 层 目的 主要 是 为 了 
提 商 精度 ， 将 全 国 市 .县 按 地 区 以 及 城市 与 县 分 类 , 城市 又 按 规模 分 , 县 
又 按 * 中 国 卫 生 情 况 分 类 » 标 淮 分 为 四 类 ， 这 样 可 使 调查 结果 的 精度 大 为 
提高 。 至 于 分 层 ( 涛 ;的 标准 是 比较 灵活 的 ， 中 国 卫 生 情 说 分 类 是 按 多 项 
指标 用 束 娄 分 析 方 法 得 到 的 . 

3) 抽样 调查 误差 包括 考 样 误差 与 非 抽 桩 误差 两 天 类 .， 在 非 抽样 误 
差 中 ,影响 最 大 ， 也 最 玲 于 控制 与 处 理 的 是 调查 (测量 ) 误 差 ， 在 本 例 中 ， 
儿童 死亡 , 特别 是 婴儿 死亡 在 调查 时 误差 较 大 , 主要 原因 是 遗漏 .为 了 保 
证 最 后 结果 的 可 靠 性 , 必须 破 求 在 调查 过 程 中 进行 严格 的 质量 控制 , 另外 
采取 切实 可 行 的 措施 进行 校正 。 本 例 中 的 补漏 即 是 一 项 重要 措施 ， 其 作 
困 绝 对 不 可 小 估 。 

如 资料 处 理 在 本 例 中 即 是 总 体 目标 量 (例如 5 岁 以 下 儿童 死亡 率 ) 
的 估计 .对 于 简单 的 线性 估计 而 言 , 即 是 根据 抽样 方案 《例如 本 例 中 的 分 
层 抽 样 或 其 他 茶 些 情形 的 不 等 概率 抽样 ) 给 出 不 辣 的 权 数 ， 当然 如 果 设 
计 是 皇 加 权 的 , 则 可 省 略 这 一 步 . 
































§11.3 全 国 办 公 自 动 化 设备 抽样 调查 ” 


一 、 调 查 目 的 

为 摸 清 我 国 微 蚤 计算机、 复印 机 与 传真 机 等 办 公 自 动 化 设备 的 拥有 
人 情况、 用户 使 用 状况 及 今后 的 市 场 需求 . 中 国 统计 信息 咨询 服务 中 心 在 
1991 年 7 月 至 10 月 在 全 国 范围 进行 一 次 抽 祥 调查 在 对 调查 资料 汇总 
加 工 处 理 的 基础 上 , 中 心 会 同 有 关 专 家 及 行业 主管 部 门 进行 分 析 研 究 , 于 
同年 芭 月 提出 上 述 三 种 设备 的 市 场 分 析 报告 , 为 管理 科研、 生产. 销售 
及 维修 部 门 的 国内 外 客户 提供 必要 的 决策 依据 和 信息 . 

二 、 抽 样 方法 

采用 分 层 二 相 随 机 抽 祥 . 


好 本 项 目 由 中 国 统计 信息 咨询 服务 中 心 组 织 并 实施 。 作 者 参加 了 其 中 设计 与 部 分 分 析 工 
媳 。 本 节 正 文 取 自 读 项 目的 抽样 调查 方案 。 
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分 层 : 将 全 国 按 省 、 自治区、 直辖 市 分 成 以 下 四 层 ， 

《 力 直辖 市 ， 北 京 、 天 津 ` 上 海 共 三 个 市 .直辖 市 作为 自我 代表 层 - 

(2)》 沿海 省 份 ， 包括 河北 .辽宁 .江苏 .浙江 、 福 建 . 山东. 广东 . 海南 
共 8 个 省 . 

(3 内 地 省 份 ， 山 西 .家 林 、 黑 龙 江 、 安 徽 .江西 .河南 、 湖北 .湖南 . 四 
川 共 9 个 省 ， 

《4) 边远 省 区 ， 内 蒙古 .广西 .个 州 .云南 .西藏 .陕西 .甘肃 .宁夏 . 青 
海 、 新疆 共 10 个 省 区 . 

以 上 分 层 是 根据 各 省 .区 .市 国民 经 济 水 尝 及 办 公 自动 化 设备 的 拥有 
情况 来 分 的 ， 根 据 多 方面 因素 , 在 全 国 抽取 17 个 省 、 区 . 市 作为 调查 点 . 
再 根据 省 有 情况 , 除 三 个 直辖 市 外 , 确定 没 海 朱 5 个 , 内 地 抽 6 个 , 边远 抽 
3 个 .在 后 三 大 层 中 利用 简单 随机 抽样 , 最 后 确定 的 省、 区 、 市 是 

人 直辖 市 ， 北京、 天津、 上 海 . 

2) 活 海 省 份 ， 辽 宁 、 江 苏 .福建 .广东 、 浙 江 . 

(3) 内 地 省 份 ， 黑 契 江 、 吉 林 : 山西. 江西、 潮 北 ` 四 川 . 

(4) 边远 省 区 , 陕西 新疆. 云南. 

然后 , 在 以 上 每 个 抽 中 的 省 ,自治 区 .直辖 市 中 , 按 二 相 抽 样 方法 分 别 
独立 抽样 。 即 先 抽取 一 个 较 大 的 样本 (第 一 站 样本 )， 只 调查 省 单 位 微型 
计算 机 .复印机 .传真 机 的 拥有 及 需求 情况 ， 然 后 在 拥有 或 有 需求 的 样本 
单位 中 抽取 一 个 较 小 的 样本 (第 二 相 祥 本 ), 按 证 查 问 卷 进行 详细 洞 查 . 这 
样 既 可 以 共有 限 的 力量 , 得 到 微型 计算 机 、 复 印 机 、 传 真 机 拥有 率 的 精确 
合计 , 摸 清 这 三 种 设备 在 我 国 未 来 三 年 内 的 需求 量 大 小 (第 一 相 调 查 ); 又 
可 以 集中 大 力 .物力 进行 详细 问卷 调查 (第 二 相 亩 查 ). 

根据 不 同情 况 , 抽样 工作 按 下 述 两 种 方法 进行 ， 

+ 直辖 市 拍 样 

直辖 市 抽样 又 分 市 区 (包括 郊区 ) 和 部 县 , 市 区 作为 一 层 , 郊 呈 作为 另 
一 主 . 从 郊 县 中 随机 抽取 一 个 县 作为 调查 点 . 

(DD 市 区 抽样 

入- 第 一 相 抽样 : 

首先 将 市 区 内 所 有 单位 分 为 28 类 ( 层 )， 根据 各 层 估 计 的 拥有 率 及 
各 层 单位 总 数 , 确定 各 层 样 本 量 . 各 层 样 本 的 抽取 可 利用 电话 号 宰 德 得 到 
单位 名 单 (大 、 中 型 工业 企业 应 从 其 他 途径 即 各 地 统计 局 工交 处 等 得 到 ， 
大 型 工业 企业 还 应 得 到 其 分 厂 的 名 单 ), 然后 采用 随机 起 点 的 等 距 抽样 法 






































332 第 11 章 案例 分 析 


狂 取 第 一 相 样 本 , 进行 第 一 相 调查 、 

BB. 第 二 相 抽 样 : 

根据 第 一 相 样 本 ， 并 利用 第 一 次 调查 结果 ， 各 层 分 别 就 微型 计算 林 、 
复印 机 、 传 真 机 , 将 拥有 及 有 需求 的 单位 编导 , 各 层 得 到 三 类 单位 清单 ( 即 
微机 拥有 或 有 需求 的 单位 清单 .复印 机 拥有 或 有 需求 的 单位 清单 、 传 真 机 
拥有 及 有 需求 的 单位 浅 单 ), 对 备 层 每 一 类 采取 随机 起 点 等 概率 系统 抽样 
方式 抽取 样本 , 得 到 第 二 相 样本 (小 样本 ), 按 调查 问卷 进行 第 二 相 调查 . 

《2) 县 内 插 样 

刀 . 第 一 相 质 祥 : 

疝 市 区 第 一 相 抽 样 . 

B. 第 二 相 抽 样 : 

网 市 区 第 二 相 抽 样 。 

2， 省 、 区 抽样 

每 省 、 区 抽 两 个 城市 和 一 个 县 ， 在 每 个 调查 省 (自治 区 ) 中 将 省 会 作 
为 必 抽 冉 市 ， 再 从 省 会 城市 的 部 其 中 利用 简单 随 宙 法 抽取 1 个 县 ， 在 其 
他 市 (地 、 州 ) 中 按 简 单 随机 抽样 方法 接 取 一 个 作为 另 一 个 调查 城市 。 其 
中 城市 (包括 省 会 ) 及 县 内 抽样 与 直辖 市 市 区 及 郊 县 的 抽样 相同 、 

三 、 确 定 样本 量 及 分 配 

1. 第 一 相 调 查 样本 重 的 确定 

根据 实际 情况 , 我 们 同时 考虑 全 国 和 各 大 区 的 抽样 精度 , 要求 沿 海地 
区 (包括 直辖 市 ) 抽样 的 绝对 误差 而 <<1.5 多 ， 内 地 误 姜 号 氧 3%， 边 远 好 
区 误差 古 科 3%， 取 置信 和 度 为 85 和 %， 对 简单 随机 抽样 的 比例 信 计 , 在 置信 
度 I 一 % 意义 下 ,车 允许 的 最 大 绝对 误差 为 &, 则 样本 量 由 以 下 公式 确定 ; 


2 
2 
nm Ep ， 








@ 
其 中 ,4 是 标准 正 态 分 布 的 a 双 侧 分 位 点 , 当 置 信和 度 为 95% 时 , a 一 0.05， 
4 一 1.96, 取 pg 最 大 值 0.25。 根据 经 验 , 取 设计 效应 为 deff 一 1.8。 所 需 
样本 量 如 表 也 .3 所 示 . 
3 





简单 随机 抽样 :样机 
所 怖 祥 林 显 实际 需要 样本 于 


4268 F682 
2401 4321 
2401 4331 


绝对 误 羡 有限 





询 海 省 市 1.5% 
内 地 省 份 29% 
边远 省 区 2% 
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实际 需要 样本 量 是 由 位 单 陆 机 抽 祥 所 需 祥 本 量 扩大 def~+.8 信 而 
得 到 的 . 

为 了 确保 精度 , 决定 沿海 地 区 抽取 8000 个 单位 ,内 地 害 份 抽取 4500 
个 单位 , 边远 省 区 抽取 4500 个 单位 ,全 国共 抽取 I7, 000 个 单位 ， 这 样 全 
男生 理论 绝对 惯 状 为 1%、 

2. 第 二 祁 谓 查 样 本 其 的 确定 

考 虚 到 三 种 办 公 自 动 化 设备 的 拥有 率 、 样 本 的 代表 性 及 所 要 达到 的 
调查 精度 ， 第 二 相 样本 量 分 别 为 复印机 3200 ( 占 第 一 相 样 本 18.8%》、 
微型 计算 机 2000 ( 占 第 一 相 样本 工 -8%)、 传 真 宙 1000《 占 第 一 相 祷 本 
5.9%). 

评注 

1) 随 着 市 场 经 济 的 逐步 建立 , 人 们 工作 条 件 与 生活 水 乎 的 不 断 提高 
以 及 各 种 产品 的 更 新 换代 周期 的 缩短 与 剧烈 的 市 场 宽 争 ， 市 场 调 在 念 末 
盒 受 到 厂家 及 有 关 部 门 的 关注 ， 市 场 调查 的 内 容 包括 消费 者 的 消费 行为 
以 及 对 商品 (产品 ) 的 拥有 与 需求 情况 ， 目 的 是 及 时 地 掌握 产品 的 消费 动 
向 , 把 握 变化 趋势 ， 它 对 时 效 的 要 求 较 高 , 而 对 设计 要 未 不 像 其 他 抽样 调 
查 那 禅 严 格 。 对 于 许多 市 场 调查 ， 例 如 消费 者 对 产品 的 质量 评价 与 满 碍 
程度 等 只 需要 抽 一 个 不 大 的 样本 即 可 达到 目的 ， 但 是 必要 的 抽样 设计 仍 
是 不 可 缺少 的 ,特别 是 跨 地 域 的 较 大 规模 的 调查 ,要 考虑 产品 ( 现 有 的 或 
洁 在 的 消费 者 ) 的 现实 分 布 情况 。 目前 在 报刊 上 见 弹 的 菜 旦 市 场 调查 并 
设 经 过 科学 的 设计 ， 不 一 定 能 说 明 河 题 。 例如 在 商店 的 家 电 柜 台 旁 对 顾 
客 进行 的 家 电 需 求 调查 就 没有 太 大 的 意义 ， 因 为 他 们 只 是 一 群 特殊 的 顾 
客 . 











3 市 场 调 查 一 个 最 大 的 问题 是 抽样 框 的 确定 . 本 例 中 前 调查 对 象 
是 单位 , 而 单位 一 般 都 拥有 电话 , 因此 利用 电话 导 码 舌 作 抽样 框 虽 是 一 种 
不 太 严格 (因为 肯定 会 有 遗漏 ) 但 却 十 分 有 效 的 方法 ， 同 时 考 虚 到 每 一 个 
单位 不 一 定 拥 有 所 调 查 的 三 种 设备 , 或 对 其 有 记 需 求 , 天 此 采用 二 想 抽样 
的 技术 . 先 抽取 一 个 大 样本 ,在 第 一 相 调查 中 只 调查 (估计 ) 每 种 设备 的 
拥有 率 及 需求 量 ， 然 后 在 第 一 相 样本 中 对 拥有 或 有 需求 的 单位 质 取 一 个 
副 小 的 第 二 相 样 本 , 进行 更 详细 调查 , 这 是 二 相 抽 祥 的 一 个 实际 应 用 . 

3) 样本 量 的 确定 是 每 项 抽样 设计 中 的 一 个 重要 内 容 。 样本 量 的确 
定 取 决 于 对 精度 的 要 求 以 及 费用 的 限制 .对 于 要 求 达到 的 给 定 精 度 , 简单 
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赔 视 抽样 的 祥 本 量 有 上 比较 衍 单 的 确定 方法 ， 仪 需 对 总 体 方差 有 大 致 估计 
即 可 .对 于 目标 量 为 总 体 比例 类 型 的 量 (在 问卷 调查 中 , 多 数 问 题 都 以 这 
种 形式 的 目标 量 出 现 的 )， 总 晒 方 差 可 用 其 最 大 值 0.25 ( 当 总 栖 比例 2 一 
0.5 时) 代 苦 ,以 获得 保守 的 估计 ， 对 于 实际 采用 的 复杂 抽 祥 , 要 达到 同 
样 的 精度 , 需要 乘 土 它 的 设计 效应 deff。， 但 在 理论 上 仪 对 一 阶 整 群 抽样 ， 
在 已 知 群 内 相关 的 情形 , 可 用 公式 求 得 def 值 ， 对 其 他 复杂 抽样 ， 则 只 有 
通过 经 验 值 进 行 估计 了 . 在 8 垃 .5 的 案例 中 , 就 有 对 de 外 的 居 计 方法 . 
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根据 国务 院 指示 , 1984 年 3 月 至 10 月 由 国家 环境 保护 局 与 商业 部 、 
农 收 渔业 部 共同 组 织 了 一 次 全 国 粮食 受 “ 六 六 六 ”与 “ 滴 滴 详 ”农药 污染 情 
沉 的 大 规模 抽样 调查 . 证 查 的 目的 是 对 全 国 各 省 直辖市、 自治 区 ( 除 西 
藏 、 台 湾 外 ) 1983 年 生产 的 主要 粮食 (小 麦 ， 早 、 中 、 聊 稻 及 玉米 ) 中 “六 六 
六 ”和 “滴滴涕 "残留 量 的 超标 率 . 袜 出 末 超 标 率 及 未 检 出 率 与 平均 残留 量 
作出 全 面 而 精确 的 估计 .， 作为 调查 技术 组 的 成 员 ， 我 们 承担 了 制定 粮食 
采样 点 分 布 方案 (以 下 称 抽样 方案 ) 及 提出 相应 数据 处 理 方法 的 工作 .更 
将 所 用 的 抽样 方案 .目标 量 的 估计 与 糖度 公式 及 其 理论 依据 报告 如 下 . 

一 、 抽 样 方案 

1. 采样 点 的 确定 ， 由 于 作为 调查 对 象 的 粮食 是 一 种 散 料 , 因此 在 遍 
定 具 体 抽 样 方案 前 需 确 定 基本 抽样 单元 、 我 们 选取 乡 级 粮 库 作为 基本 抽 
样 单元 , 区 为 采样 点 。 对 每 个 被 抽 中 的 采样 点 , 根据 粮食 品种 及 不 局 的 存 
败 方 式 , 按 规定 的 方法 , 采取 有 代表 性 的 样品 , 经 充分 泥 和 后 , 分 取 1 kg 
样 癌 作为 试 痒 送 检 . 这 份 试 桩 完全 作为 相应 采 祥 点 此 种 粮食 的 代 表 ， 例 
如 车 试 样 中 "六 六 六 "含量 超标 ， 则 相应 采样 点 的 该 种 粮食 都 按 “ 六 六 六 ” 
食量 超标 计算 . 

2. 抽样 方案 的 类 和 型， 调查 采用 分 层 两 级 不 等 概 府 随机 抽样 法 ,将 28 
个 省 (市 ,自治 区 ) 作为 展 ,全 部 进行 抽查 ， 每 层 中 第 一 级 卸 样 (省 抽 采 样 
上 县) 采用 与 县 的 该 种 粮食 产量 成 比例 的 概率 无 放 回 的 抽取 方法 ( 详 见 四 . 
第 二 级 抽样 ( 即 采样 县 中 抽 采 样 点 ) 则 采用 简单 随机 抽样 ， 每 个 采样 县 扯 
到 数目 相同 (8 个 ?的 采样 点 ， 采 用 这 个 方案 的 原因 是 : 样本 代表 性 好 , 实 


* 本 节 正 文 引 自 汉 士 雍 , 程 答 生 , 汪 仁 官 : ¢ 全 国 粮 食 污 染 调查 抽样 方案 的 设计 与 数据 处 再 
方法 原 载 < 应 用 概率 统计 ?>，1985, 第 工 卷 第 2 期 , 155~160。 
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芳 方 便 , 并 有 可 能 采用 简单 的 数据 处 理 方 法 、 请 查 结果 表明 , 所 得 估计 量 
的 精度 较 高 . 

3- 采样 县 与 采样 点 数 的 确定 : 样本 量 大 小 取决 于 调查 精度 和 调查 
费用 (工作 量 ) 之 问 的 平衡 . 由 于 全 国 规模 的 粮食 农药 污染 调查 还 是 首次 
进行 , 缺少 现成 的 污染 程度 及 差异 的 有 关 资 料 , 加 之 因 时 间 紧 所 寂 允许 事 
先 作 试验 性 调查 , 因此 只 得 从 控制 总 工作 量 前 前 提 下 考虑 样本 量 的 大 小 ， 
并 对 各 层 ( 省 ) 作 合理 的 分 配 . 

从 总 的 工作 量 考虑 , 各 种 粮食 的 采样 点 数 以 控制 在 5000~ 6000 个 为 
宣 , 即 在 所 调查 的 粮食 种 关中 平均 每 5 万 哮 粮 食 取 一 个 祥 . 为 保证 全 国 及 
各 省 的 调查 精度 , 以 及 不 使 产量 高 的 省 工作 量 过 大 , 我 们 采用 各 省 每 种 粮 
食 的 采样 县 数 5 以 及 采样 点 数 ) 与 该 省 的 这 种 粮食 药 产 量 的 平方 根 成 正比 
前 原则 确定 ， 各 省 每 种 粮食 按 其 产量 所 分配 前 采样 县 数 见 表 坟 .3. 

在 制定 方案 时 ， 尚 缺 各 省 (市 、 自 治 区 ) 1983 年 分 粮食 种 类 的 产量 数 
据 , 因此 在 方案 制定 过 程 中 都 用 1982 年 的 相应 数据 代 符 ， 实际 抽取 的 采 
到 11.8 








实际 产量 (5 万 吨 ) 所 需 采 样 县 数 窜 际 产量 他 万 吨 ) 所 需 采 样 县 数 

0.3 记 下 0 110 ML~132 11 
0.3 以 上 ~22 1 132 以 上 ~156 也 
2 以 上 ~6 2 156 BL 上 ~182 3 

日 以 上 上 一直 如 182 以 上 ~210 14 
了 以 上 ~20 4 210 以 上 ~240 15 
20 以 上 ~30 5 240 以 上 一 272 16 
30 以 上 ~42 6 272 以 上 ~306 17 
42 以 上 一 56 7 306 以 上 一 342 18 
56 以 上 ~72 8 342 以 上 ~380 19 
72 以 上 一 90 9 380 以 上 ~ 20 

10 


90 以 上 ~410 


CC 


表 11.4 











|。 出 当 器 娃 反 | 哆 
求 | 洲 山 部 起 就 | 和 








| 


336 第 霸 章 案例 分 折 


样 县 及 采样 点 数 按 粮食 种 类 划分 , 见 表 11.4. 

方案 还 多 许 各 省 根据 具体 情况 及 需要 ， 自 设 补充 的 采样 县 ， 但 从 这 
些 采 样 点 得 到 的 数据 在 处 理 时 不 与 按 随机 原则 确定 的 数据 混合 、 加 .上 补 
充 采 样 县 , 实际 采样 县 总 数 为 679 个 , 采 禅 点数 为 5432 个 ， 

4. 雁 省 采样 县 的 具体 抽取 方式 ， 省 内 抽取 采样 县 蚌 按 各 其 该 种 粮 
食 的 产量 天 致 成 正比 的 不 等 概率 随机 抽样 办 法 儿歌 的 ,具体 抽取 步 对 是 
首先 根据 该 省 这 种 贸 食 的 总 产量 在 玫 工 .3 中 查 得 所 需 采 样 县 数 , 按 各 县 
的 产量 赋予 每 个 其 以 与 其 产量 成 正比 的 代码 个 数 ( 例 如 每 0.5 万 嘲 一 个 
代码 )， 代 码 按 全 省 各 县 级 单位 的 自然 顺序 统一 编号 ， 车 代码 总 数 为 6， 
则 利用 计算 机 产生 工 到 了 的 (离散 ) 均 匀 分 布 随机 数 ， 与 所 产生 的 随机 数 
代码 相应 的 县 就 作为 抽 中 的 采样 县 ， 直 至 所 需 的 采 祥 县 数 满足 为 正 . 

在 抽取 过 程 中 , 若 一 个 县 被 手 取 到 两 次 或 多 于 两 次 , 则 仍 作 为 一 个 采 
样 其 处 理 ， 而 以 后 面 的 风机 数 记 代 表 的 其 依 次 递补， 显然 ， 实 际 采用 的 
狂 取 方法 是 无 放 回 的 抽样 方法 ， 每 次 抽取 时 , 每 个 当时 还 未 被 抽 中 的 县 
被 抽 申 为 采样 县 的 概率 为 该 县 的 产量 对 未 被 手中 县 的 总 产量 的 比 ， 即 车 
令 了 nr 为 及 省 第 必 个 县 的 产量 , 了 一 总 了 ms 为 全 省 总 产量 , 设 前 记 一 1 次 
拙 中 的 采样 县 为 生 , 各 …, 4-x， 则 第 次 抽 中 记 县 的 概率 为 

了 {第 记 次 抽 中 训 县 | 前 一 工 次 抽 到 和 ,说 ，…, 训 -4 县 } 

Ta 《六 天 页 加， (41.1) 
了 一 加 了 on 

二 、 对 目标 量 的 估计 及 其 精度 公式 

调查 数据 的 统计 计算 是 根据 粮食 桩 品 分 析 所 得 的 “六 六 六 > 和 “ 滴 滴 
滋 ? 残 留 量 数据 , 结合 1983 年 的 实际 产 量 ， 计 算 侍 种 粮食 按 各 采样 县 .各 
省 及 全 国 每 种 农药 残留 量 的 超标 率 , 检 出 未 超标 率 .未 检 出 率 和 平均 残留 
量 前 估计 量 和 它们 的 精度 。 鉴于 各 种 率 的 估计 公式 与 精度 公式 对 不 同 粮 
食 - 不 同 农药 都 是 相同 的 , 而 对 平均 残留 量 也 只 须 作 少许 变化 就 能 采用 同 
样 的 公式 ， 因 此 下 而 仅 以 一 种 粮食 一 种 农药 的 超标 率 为 俩 ， 给 出 有 关 的 
计算 公式 . 

1. 记号 ;本 节 中 涉及 的 各 种 主要 记号 的 含义 如 下 : 

(DD) 编号 ， 省 编号 ,一 1 9 …, 廿 (28)， 上 县 编号 i 省 中 实 
际 县 数 为 Ws, 而 采样 县 数 为 mm 县 中 采样 点 的 编号 为 j, f= 2, -…, 8 

(2) 1983 年 该 种 粮食 的 产量 用 了 表示 ，1983 年 产量 用 了 ' 表示 。 特 
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别 是 , 了 ms 表示 访 省 其 了 点 的 1983 年 产量 , 了 Fw、 为 省 5 县 的 产量 ， 
了 .为 有 省 的 总 产量 , 了 .… 为 全 国 总 产量 ， 若 在 了 上 打上 “” 号 ， 则 表 
示 相 应 的 1983 年 产量 . 
(3) 真实 超标 率 记 为 p, 相应 前 司 计 量 记 为 有 
他 车 天 省 & 其 了 点 的 粮食 样品 分 析 结 果 超 标 * 
(9 30 一 1 0 否则 
( 注 ， 著 令 jos 为 该 点 粮食 样品 分 析 结 果 的 农药 残留 量 , 则 所 有 计算 
公式 中 的 加 即 为 平均 残留 量 ，》 
2. 县 超标 率 的 估计 ， 及 省 5 县 的 真实 超标 率 。 
_ 瑟 省 县 (该 种 粮食 1983 年 ) 产量 中 的 超标 部 分 


省 5 县 (该 种 往 食 1983 年 7 总 产量 





MER MF py 
一 一 工 -， (11.2) 
字 Ys Ps- 


式 中 的 求 和 是 对 县 中 的 所 有 点 进行 的 .上 式 是 一 个 比值 .由 于 在 一 个 采 
样 县 中 取 的 采 祥 点 数 (8 个 ) 相 对 于 一 艇 县 中 的 总 点 数 ( 乡 的 粮 库 数 ) 比 例 
较 大 , pm 可 以 用 采样 点 的 数 民 估计 ; 





网 > 
2 一 一 一 一 一 一 ， (C11.3) 
辫 了 
召 (Bm) 与 Pm 的 仿 差 也 其 小 ， 以 下 我 们 将 这 个 信 关 外 略 不 计 ， 即 假定 
Eo (Bi) 人 pr- (11.4) 
3 省 超标 率 的 估计 及 方差 计算 .省 超标 率 可 表 成 ; 
P= 六 zp Fe . (11.5) 


根据 各 省 中 采样 县 的 手 取 方式 , 即 无 放 回 的 与 产量 有 关 的 概率 抽样 ( 见 公 
式 《 寺 .1)， 以 下 简称 无 放 回 抽样 )， 省 超标 粮食 数 了 s…ps 的 估计 可 用 
Murthy (1957) 的 公式 





yo PS DB 
一 一 EU 
从 而 _ 
PMA (11.8) 
POUSDOF,.. ” 
其 中 PCS) 是 五 省 中 按 无 放 回 拍 祥 抽 到 特定 样本 8( 大 小 为 必 ) 的 无 条 件 
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概率 ，PCS| 科 是 在 搜 样 中 已 知 第 一 个 抽 到 第 上 县 而 获得 特定 样本 5 的 
娄 忻 概率 ， 由 子 对 固定 的 6 罗 卫 (S| 引 一 芭 其 中 求 和 是 对 所 有 大 小 为 mm 
的 样本 求 的 。 下 同 ), 到 兹 
eb | 
E(B)— E BoC EB, pap 

= PO [DpmY we/Y.. 

六 psu/Y hp (11.7) 
从 而 条 是 近似 无 贪 的 (这 里 的 近似 仅 是 由 于 (了 .分 式 引 起 的 ). 

在 无 放 回 抽样 情形 ， 尔 的 方差 合计 为 
BP POS i, 为- POI PO | DIY PN (和 By 

"B= [PO YT 








(11.8) 

式 中 PCS1s， 放 为 在 前 两 个 抽 到 第 县 和 第 了 县 《不 考 虚 其 次 序 ) 情况 
下 , 抽 到 特定 样本 六 的 条 件 概率 ，[ 严 格 地 说 , 为 使 2( 雄 ) 是 六 (高 ) 的 无 
偏 估计 ,《〈 世 .8) 式 还 应 添加 一 项 与 第 二 级 ( 即 是 抽 点 ) 抽 样 效 应 有 关 的 小 
量 , 会 见 Ooehran (1977) 第 1 章 ]. 

公式 ( 生 . 全 与 (11.8) 的 计算 量 非常 大 ， 若 用 它们 处 理 调查 所 得 的 所 
有 数据 有 困难 .因此 我 们 寻求 着 代办 法 . 

将 上 述 无 放 回 抽样 按 与 产量 成 正比 的 概率 有 效 回 抽样 处 理 ， 即 在 省 
抽 县 过 程 的 mw 次 狂 幸 中 ， 每 个 县 每 次 被 抽 到 的 概率 都 为 了 w./7n..， 则 
pr 可 用 Bi 的 算 ri 也 章 ); 


了 名, (11.9) 


Th = 
它 是 ps 的 无 偏 知 计 ( 著 不 考虑 办 ,对 pu 的 储 差 )， 而 办 的 方差 的 无 偏 估 
计 为 ; 





(一 二 基 (Bv 一 起) (11.10) 


作为 有 放 回 拍 样 的 方差 估计 (了 寻 .10) 比 无 放 回 抽样 前 方差 估计 (1L.8) 为 
大 , 也 即 ( 工 .10) 式 给 出 从 的 方差 估计 的 一 个 上 腿 . 

在 应 用 上 述 公式 时 ， 还 有 一 个 问题 需要 考 虚 ， 在 制定 省 抽 县 的 方案 
时 ， 我们 采用 前 是 概率 与 每 个 县 的 1982 年 产量 了 入 . 成 比例 ， 而 不 是 与 


本 
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1983 年 的 实际 产量 Ym. 成 比例 ， 下 面 证 明 : 只 要 假定 1983 年 的 污染 程 
度 与 1982 年 的 近似 相等 (粮食 农药 残留 量 主要 与 土 霹 残 留 的 农药 量 及 当 
年 农药 施用 景 有 关 ， 基 此 “六 六 六 ”与 “滴滴涕 "污染 程度 在 它们 完全 停止 
使 用 前 , 相 邻 两 年 间 的 变化 不 会 很 大 ), 也 即 假定 . 

PrP (=1, 2, , NA: pap. (11.11) 
别 上 述 结论 , 例如 办 的 无 僵 性 亦 近 似 成 立 ， 这 是 因为 : 

刀 ( 志 ) 一 如 Be( 二 家 各)- 坪 书 | 入 已 ] 


一 二 以 杞 Co 一 本 (po) 一 a 人 Bi) 








一 入 ph 
这 里 样本 值 与 总 体 值 用 了 相同 的 记号 ， 实 际 期 望 号 雇 下 的 pmw 和 人? 为 
样本 的 第 个 梯 的 值 ， 

表 拭 :5 是 两 组 数据 分 别 按 精 确 的 无 放 回 抽样 公式 ( 世 .6).(0T.8) 与 


按 有 放 回 近似 公式 (了 .9) (11.10) 的 比较 . 




















表 .5 
超标 率 的 合计 家 超标 率 的 标准 差 ~ 了 Ci) 
按 (21. 全 式 按 Q1. 纺 或 技 G3. 时 式 按 Q11.10) 臣 
样本 1(n4 一 5) 10.03%e 10.14% 4-4096 .396 
样本 2(m==…7) 6.26% 6.17% 2.66% 2.96% 


从 表 民 -5 中 可 以 看 到 近似 公式 (并 .9) 和 和 C 坟 .10) 与 精确 公式 (11 .6)、 
《21.8 相差 其 微 ， 因此 为 计算 方便 起 见 ， 我 们 实际 采用 的 是 按 有 放 回 朱 
样 的 近似 公式 

4. 全 国 超标 率 的 估计 与 方差 公式 : 

技 分 层 儿 样 公式 ， 从 各 省 超标 率 的 估计 色 及 其 方差 估计 沁 困 ) 可 得 
全 国 超 标 率 





P= pr/Y... (11.12) 
的 估计 名 及 其 方差 六 (8) 的 合计 vC 台 ) 如 下 ; 
$= 起 Wi Bs (11.18) 


5 
vB) =- oh), (11..14) 
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其 中 层 权 全 一 了 /六 (11.15) 
震 各 省 产量 对 全 国 总 产量 的 比 。 只 要 所 , v( 雄 ) 是 Ph 六 (名) 的 无 偏 估 
计 , 则 多 , 2($) 分 别 是 p。 广 (名) 的 无 偏 佑 计 . 
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评 注 

1) 本 例 是 一 项 专项 调查 , 目的 比较 单纯 , 即 信 计 全 国 1983 年 生产 的 
主要 粮食 中 六 六 六 ”与 < 滴 沉 滋 " 残 留 量 按 卫生 部 规定 的 标准 的 超标 率 、 
检 出 未 超标 率 与 未 答 出 率 等 , 但 对 估计 精度 要 求 较 高 。 因此 搬 梯 设计 必 
须 严密 ， 并 有 与 抽样 方案 匹配 的 目标 量 估计 及 其 方差 估计 方法 本 案例 
是 严格 遵循 这 个 原则 进行 设计 与 分 析 的 . 

2) 抽样 单元 是 每 项 调查 必须 首先 明确 的 .对 于 像 狠 食 这 一 类 散 料 ， 
有 许多 种 可 能 的 选择 . 本 例 确 定 乡 级 粮 库 作为 基本 拖 祥 单元 , 因为 它 所 储 
存 的 正 是 本 乡 或 邻近 乡 生产 的 粮食 , 没有 有 从 外 运 来 的 ， 而 且 规 模 适 中 , 各 
免 抽 样 的 阶 数 过 多 更 为 重要 的 是 选中 乡 级 粮 库 作 单 元 , 顺理成章 的 就 
可 以 将 行政 系统 作为 抽样 框 使 用 , 从 而 往 化 了 整个 抽样 过 程 . 至 于 在 粮 库 
中 样品 采集 的 方法 , 则 采用 粮食 部 门 通 用 的 随机 采样 法 , 从 库 中 的 不 同位 
置 ,上 下 内 外 各 层次 中 采集 样品 ， 进 行 混合 缩 分 制 成 试 祥 , 按 专 门 的 化 学 
定量 分 析 方法 得 出 4 六 六 六 "或 “滴滴涕 ”的 含量 。 这 与 社会 经 济 调查 中 通 
党 采 用 的 问卷 调查 是 完全 不 同 的 调查 形式 ， 对 于 这 种 专门 调查 , 测量 ( 调 
查 ) 误 差 较 容易 得 到 控制 , 而 且 可 以 获得 估计 . 

3) 本 例 的 抽样 方案 采用 分 层 二 阶 不 等 概率 插 祥 。 以 省 为 层 , 这 是 因 
为 调查 要 求 同 时 获得 每 个 省 的 资料 ， 同 时 又 便于 调查 的 组 织 与 实施 、 在 
层 中 的 第 一 阶 抽样 ， 即 省 中 抽 县 用 的 是 了 ates-Grandy 逐个 抽取 的 与 粮 
食 产 量 基本 成 比例 的 梳 率 抽样 .采用 不 等 狂 率 抽样 可 较 大 程度 地 提高 精 
度 , 是 在 多 阶 摘 样 中 的 第 一 二 阶 扫 祥 中 常用 的 方法 ， 而 Yates_Ghrundy 
方法 又 是 对 ”>2 稍 形 中 实施 景 方便 的 ， 每 次 抽样 都 与 所有 未 入 样 的 单 
元 (县 ) 的 大 小 (产量 ) 成 比例 概率 抽样 .本 例 的 另 一 个 特点 是 ， 第 一 阶 摘 
桩 样本 量 m《 县 数 ) 的 确定 系 按 (省 内 ) 该 种 粮食 总 产量 的 平方 根 成 比例 . 
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这 样 既 可 保证 每 个 省 每 种 粮食 都 有 一 定数 量 的 样本 以 保证 精 庆 ， 又 能 避 
免 产 量 特别 大 的 省 份 调查 过 多 的 县 从 而 造成 浪费 .这 种 折 填 的 方法 是 可 
取 的 。 至 于 样本 县 中 的 第 二 阶 抽样 采用 区 定 样本 量 (m 一 8 个 乡 级 粮 库 ) 
的 简单 随机 抽样 , 是 为 了 便于 实施 并 简化 数据 处 理 . 

4) 总 体 目 标量 著 严 格 按 照 与 抽样 方 案 配套 , 则 应 采用 Murthy 估计 
量 。 而 在 %>2 时 ，Murihy 估计 量 计算 公式 ( 坟 . 国 及 其 方差 估计 公式 
C11.8) 都 相当 复杂 , 转 别 是 后 者 ， 为 此 我 们 不 得 不 进行 简化 , 用 放 回 PPS 
抽样 公式 代 之 。 在 本 例 中 ， 我 们 经 过 实际 计算 比较 两 者 的 差异 ( 即 表 
二 .5). 结果 表明 差异 不 大 , 近似 程度 是 可 以 接受 的 . 理论 表明 按 放 回 PPS 
抽 祥 的 方差 要 比 不 放 回 的 PPS 抽 祥 方差 要 大 ， 关 工 .5 的 结果 也 证 实 了 
这 一 点 。 因 此 车 仅 就 第 一 阶 抽样 ， 我 们 这 样 航 所 得 到 的 是 实际 方差 前 一 
个 上 限 , 是 一 个 方差 前 较 保 守 的 估计 .如 果 要 校正 这 一 点 , 还 可 以 乘 以 估 
计 的 有 限 总 体 校 正 系数 工 一 户 其 中 子 是 第 一 阶 抽 祥 比 的 一 个 大 致 估计 
不 过 由 于 我 们 将 第 二 阶 抽样 引起 的 方差 分 量 忽略 掉 了 (理论 与 实际 均 表 
明 这 项 数值 相对 于 第 一 项 要 小 得 多 )， 基 此 两 者 相抵 , 按 本 钢 计 算 的 方差 
舍 计 与 实际 数值 应 该 相差 不 多 . 
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根据 中 国政 府 与 联合 国 此 章 基 金 会 1985~1989 年 合作 项 只 计划 ， 
1987 年 7 月 国家 统计 局 会 同 有 关 单位 组 织 肉 蒙古、 黑龙江、 浙江、 山东、 
湖北 .广东 四川 ,云南 和 宁夏 等 九 省 (区 ) 进 行 了 儿童 情况 的 抽样 调查 .这 
次 调查 的 标准 时 点 是 1987 年 7 月 日 零 时 .调查 的 工作 时 间 是 1987 年 
了 月 工 内 至 了 月 中 日 ， 本 次 调查 前 目的 是 掌握 0~14 岁 儿 童 人 数 、 儿 童 
接受 教育 、 生 长 发 育 . 健 康 疾病 、 生 存 环境 等 情况 、 同时 用 这 无 省 (区 ) 的 
调查 数据 推算 全 国 儿童 的 相应 数据 , 为 国家 制定 有 关 的 方针 政策 .改善 和 
加 强 刀 童 的 半生、 保健 .营养 和 教育 等 工作 ， 加速 培养 四 化 建设 人 才 提 供 
科学 依据 此外， 由 于 中 国 儿 举人 数 约 占 世 界 儿 童 人 数 的 1/6， 因 此 
这 项 调查 的 结果 具有 一 定 的 世界 意义 .本 文 将 详细 介绍 这 项 调查 工作 中 
的 有 关 失 样 设计 ， 以 及 与 抽样 方案 相 适 应 的 根据 样本 导 计 总 体 各 目标 最 
的 公式 及 其 相应 的 方差 估计 公式 .最 后 就 若干 目标 量 的 具体 结果 对 上 述 


区 本 节 正 文 狂 自 将士 刘 与 王 思平 e1987 年 四 国 儿童 情况 插 样 调查 的 抽 祥 设计 及 数据 处 理 
模式 ?路 袋 < 中 国 儿 辣 状 况 的 调查 与 研究 ?, 中 国 统计 出 版 社 , 1990, 32~46。 
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药 设 计 与 分 析 精 度 作 出 初步 分 析 。 

一 、 抽 样 设计 

.抽样 方案 的 类 型 

抽样 设计 应 使 调查 具有 充分 的 代表 性 , 保证 一 定 的 精度 , 并 尽 可 能 节 
省 调查 药 人 力 . 物 力 与 财力 , 日 便于 组 织 管理 .根据 上 述 昌 的 以 及 实际 可 
能 , 搜 样 调查 方案 采用 分 层 二 阶 不 等 概率 整 群 抽样 , 在 确定 调查 的 每 个 省 
《自治 区 ) 中 按 城 市 及 属于 不 同 地 形 类 型 的 县 分 层 , 层 内 较 与 市 .县 的 人 口 
总 数 成 出 例 的 不 等 概率 无 放 回 方式 狠 取 样本 市 (其 )。 在 样本 市 (县 ) 中 按 
简单 随机 抽样 方法 抽取 固定 数量 (10 个 ) 的 样本 点 (基本 上 相当 于 村 民 委 
员 会 或 居民 委员 会 )， 调查 样 本 点 (以 下 简称 群 ) 内 所 有 0~14 岁 儿 童 . 

2. 层 的 划分 

站 童 情况 受 所 在 地 的 经 济 文化 水 平和 社会 习俗 等 影响 频 大 ， 同 时 考 
虑 到 调查 组 织 管理 的 方便 , 我 们 将 各 省 .自治 区 作为 太 层 .在 每 一 大 层 中 
再 按 城 市 , 位 于 平原 地 区 前 农村 县 , 位 于 丘 忠 地 区 的 农村 县 以 及 位 于 出 区 
或 高 原 地 区 的 农村 县 共 四 种 基本 类 型 分 为 铸 干 小 层 ， 若 同一 种 类 型 中 包 
含 的 县 数 过 上 雾 , 则 又 按 地 更 位 置 或 行政 区 划 细 分 为 2~3 个 小 层 ， 其 原则 
是 每 层 抽 2 个 市 (县 )， 每 省 (自治 区 ) 中 按 市 (其 ) 的 第 一 阶 抽样 比例 大 致 
为 TAI0 (大 省 略 低 , 小 省 略 高 ), 自然 , 每 省 (自治 区 ) 不 必 一 定 包 含 上 面 所 
述 的 四 种 类 型 的 小 层 . 

按 上 述 原 则 , 9 省 ,自治 区 共有 883 个 市 .其 共 分 为 向 个 小 层 ， 应 抽 
样本 市 .县 数 为 834 个， 本文 以 下 部 分 的 层 肖 是 指 上 述 的 小 层 . 


表 坟 .6 各 和 省 每 种 类 型 地 区 所 包含 鸭 市 县 数 及 划分 的 层 数 









































城 市 平原 县 丘 睦 其 | 山区 或 高 床 其 | 合 计 
内 蒙 了 人 I5{1) 58(2) 一 B84) 
黔 志江 1601) 21{1) 27 (2 14(1) 78 (9 
浙江 | SCD 230) 16(1) 28(1) T7640) 
山东 1801) 49(2) 100) 2701) 85) 
湖 北 13(1) 14(1) 14(1) 276D B80 
广东 26C1} 25(D) 22(1) 46(2) 109 (5) 
咱 1401) 22{1) S99) T1104) 208 (8) 
云 南 10¢1) 一 801) 103 C8) 126(%) 
字 真 3(D) 车 人 一 sO 19(3) 
合计 | .114(9) 177 (8) 223t10) 369{(14) | 883{42} 
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83, 层 内 抽样 本 市 (县 ) 的 方法 

每 层 中 按 二 阶 抽样 法 , 第 一 阶段 在 层 内 抽 市 (县 ), 所 用 的 方法 是 按 与 
各 市 《县 ) 的 人 口 总 数 大 至 成 比例 的 不 等 概率 无 放 回 方法 抽取 mm 一 2 个 样 
本 市 (县 )。 有 具体 步骤 是 : ， 

第 一 个 样本 市 (县 ) 的 抽取 是 按照 一 多 的 释 率 随机 抽取 的 ， 这 里 
的 21 是 每 个 市 (上 县) 的 1984 年 人 口 总 数 , 而 Z' 是 当时 该 层 所 有 市 (县 ) 的 
人 口 总 数 。 设 第 5 个 市 (县 ) 被 抽 中 。 第 二 个 样本 市 (县 ) 着 在 剩 下 的 市 
《号 ) 中 仍 按 与 人 日 数 如 成 比例 的 概率 抽取 ， 闪 而 实际 是 按 ww 一 万 一 到 2 到 
的 概率 在 剩 下 的 市 (县 ) 中 抽取 的 . 

4. 样本 市 (县 ) 中 抽 群 (样本 点 ) 的 方法 

第 二 叭 抽样 是 在 样本 市 (县 中 按 简单 随机 抽样 方法 抽取 10 个 样本 
点 ( 群 )、 每 个 样本 点 基本 上 以 居 ( 村 ) 民 委员 会 为 基础 。 为 使 抽 祥 更 有 效 
率 ， 我 们 在 抽样 中 对 群 的 组 成 作 了 某 些 调整 ， 即 按 抽 中 的 样本 市 (县 ) 中 
各 居 ( 村 ) 民 委员 会 的 名 册 及 其 相应 的 人 口 数 将 人 口 数 相差 过 于 悬 珠 的 居 
《村 ) 民 委员 会 进行 合并 或 分 拆 ( 分 拆 时 以 居 ( 村 ) 民 小 组 为 基础 , 下 个 小 组 
为 一 群 )， 使 调整 后 的 群 所 包含 的 人 口 数 在 同一 个 样本 市 《县 ) 肉 大致 相 


等 . 

按 上 述 方案 ，9 省 (自治 区 ) 中 共 抽 样本 市 (上 县) 84 个 ， 样 本 点 ( 群 ) 
840 个 ， 样 本 点 中 所 包 售 的 人 口 数 ( 按 1984 年 计 ) 约 为 77 万 , 当时 按 儿 童 
占 总 人 口 1/3 的 比例 计算 , 所 需 调查 的 儿童 数 约 为 25 万 人 ， 实 际 调查 时 
所 有 样本 点 的 总 人 口 数 (1987 年 7 了 月 1 日 数字 ) 为 811717 人 ， 其 中 调查 
儿童 总 数 为 234659 人 . 

上 述 方案 经 联合 国 儿 童 基金 会 有 关 专 家 咨询 后 ， 得 到 确认 . 在 正式 
调查 前 , 各 省 还 都 组 织 过 试 调查 . 

二 、 各 层 目 标量 的 估计 及 其 方差 估计 

工 。 关 于 调查 目标 量 的 简单 说 明 

根据 调查 方案 , 这 次 对 九 童 及 其 社会 家 宕 环境 因子 的 调查 , 日 标量 共 
达 126 个 之 多 . 但 从 数据 处 理 角 度 上 说 , 这 些 目标 量 大 致 可 分 为 两 类 ; 第 
一 类 是 需 给 出 有 关 总 体 总 量 的 估计 ， 钢 如 某 一 年 龄 组 的 儿童 总 数 或 某 一 
类 (例如 独生子 女 ) 几 童 总 数 ; 另 一 类 是 关于 两 个 这 样 总 数 的 比 , 例如 学 讼 
儿童 (6~14 岁 ) 在 校 它 ， 即 是 学 龄 儿童 的 在 校 人 数 与 学 龄 儿童 总 人 数 之 
雍 值 ,关于 其 他 量 , 例如 平均 异 以 及 凡是 在 总 人 口 5 调 查 时 的 ) 中 所 占 的 某 
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类 儿童 的 比 鲍 则 可 化 成 第 一 类 目标 量 处 理 . 
由 于 对 不 同上 只 标量 的 总 数 估计 与 两 个 总 数 之 比 人 的 估计 药 处 理 方法 
都 是 同样 的 , 四 此 本 文具 就 这 两 种 情况 加 以 一 般 性 讨论 , 给 册 数 据 处 理 的 
模式 , 主要 包括 目标 量 的 估计 量 公式 及 估计 量 方差 的 估计 公式 。 
2. 记号 
本 节 只 涉及 层 内 数据 的 处 理 , 故 层 编 号 省 暗 . 
2 市 或 县 编号 , 特别 记 桩 本 市 (上 县) 的 编号 为 1,2; 
元 群 编号 ， 圣 别 记 入 样 的 群 编号 为 1, 3，…，way 其 中 人 一 般 等 于 
了 0; 
-de 宇 市 (县 ) 中 (经 调整 后 前 ? 群 数 : 
J 市 (县 ) 中 群 的 抽 祥 比例 , 即 mo/ 3444 
Zi 4 市 (县 ) 了 群 1987 年 ?月 1 日 时 的 人 口 总 数 
各: 市 (县 ) 2987 年 7 月 1 日 的 人 口 总 数 ; 
2 该 层 1987 年 7 月 1 日 时 的 人 口 总 数 ; 
了 ， 了 ,及 yy 分 别 表示 调查 指标 y 的 层 总 数 ，i 市 (县) 总 数 及 也 市 
(县 ) 7 群 总 数 , 其 中 工 及 了 ,的 合计 记 为 依 及 参 
于 ,加 , 及 zw 分 别 下 示 另 一 调查 指标 2 的 层 总 数 ,$ 市 (上 县) 总 数 及 
市 (县 ) 5 群 总数 , 入 计 量 的 记号 同上 ; 
至 , RB, 表示 层 及 必 市 (上 县) 中 yx 指标 总 数 之 比值 , 即 


_Y 一 了 
| 吾 一 过， RB- 
8.2 8.… 分 别 表示 gi 或 ze 的 样本 方差 或 协 方差 , 即 
5 一 二 二 马 (oo 一 纪 )2 


3 各 1 
1 名 yg 
po 冲 (2 ; 

















53: 一 
sm 3 (gs— 9) (ay ~— Be); 
% 一 1 全 
其 中 -去 沪 Yss 5 去 加 
83. 关于 总 藩 王 ( 或 乞 ) 的 估计 及 方差 估计 


全 样本 市 (县 ) 某 目标 量 总 数 也, 的 估计 
对 了 ,的 信 计 我 们 采用 精度 较 高 的 对 群 人 口 的 比 估 计 , 即 令 


B-Boy 入 (11.16) 
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作为 了 了, 与 总 人 口 数 敌 之 比 了 一 了 wf 2 的 估计 .于 是 


全 -全 a C1.) 


a 
了 





作为 比 估 计 ， 他 ,是 有 偏 的 , 但 偏 情 并 不 大 , 它 的 近似 方差 (从 而 也 是 
近似 均 方 误差 ) 为 
43( fo) Dy — Bis)? 


DD- C11.18) 
相应 的 信 计 量 为 
PD EE Pe) (11.19) 


人 2) 层 中 目标 量 总 数 了 的 估计 
在 给 出 了 层 内 两 个 样本 市 (上 县 ) 目标 量 总 数 的 估计 人 :、 儿 。 后， 很 据 
我 们 给 出 的 抽样 方法 ， 了 了 的 估计 应 用 Murihy 估计 量 ， 在 n=2 的 情形 ， 





enthy 舍 计时 有 局 吉 为 简单 摧 形 式 : 
了 -二 二- 二 [Go 大 -da- - 在 |. (11.20) 
其 中 
= 有 参 ， w- 邹 ， (11.21) 


有 下、 三、Z 是 抽样 时 的 相应 人 吕 数 , 若 忽 略 不 计 多 :他 。 的 偏 倚 ， 傅 是 无 
篇 估计 量 . 
根据 二 跟 抽 样 的 方差 公式 ， 
VO) TABPN + Ira), 
其 中 召 ,， 了 六; 是 对 第 一 阶 抽 样 的 期 望 与 方差 ; 召 2，Fs 是 对 给 定 的 已 抽 得 
药 一 级 单元 (样本 市 .县 ) 笃 件 下 抽 祥 的 期 望 与 方差 。 通过 计算 得 到 


VD)= 于 如 Wb 1 — Wh 2 总 


和 一味 一 好 
+ 对 加 5 VP) 
已 2—tWh—W + 


1 一 2 
本 (11.22) 


其 中 求 和 是 对 层 内 所 有 可 能 的 市 .县 求 的 ， 对 三 (全 的 估计 , 我 们 采用 以 
下 元 偏 的 入 计量 [参见 Brewer 点 Hanif(1988)]; 
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vi) = WO)(1— wa)(1— 加 一 ww) (下 1- Ds 











(2—w— wa) MIT We 
.1 iu \ oF,) 
二 二 ) “ 2 一 zx) 浊 
wd wy i, #2). 
{2— — us) 
《11.23} 
4. 两 个 目标 量 总 数 比值 如 的 售 计 
(DD 估计 量 的 形式 
层 中 两 个 月 标 基 总 数 了 与 互 的 比值 为 
R= 了 /及 . 
直接 用 上 面 的 相应 信 计 车 参与 全 的 比 信 、 
站- 庆 / 人 至 (11.24} 


估计 , 而 不 必 从 样本 市 (县 ) 中 类 似 的 比值 出 发 . 

《2) 入 的 方差 表示 

出 于 ( 坟 .24) 式 中 的 参与 全 都 是 通过 一 个 复杂 样本 《二 阶 不 等 概率 
融 群 桩 本) 估计 ,而 司 又 是 非 线性 的 估计 形式 , 因此 下 的 方差 是 相当 复杂 
的 ， 实际 上 ， 关 于 入 的 方差 特别 是 方差 的 入 计 是 这 个 项 目 理论 中 比较 
难于 处 理 的 问题 . 

利用 Taylor 级 数 展开 ,可 获得 一 个 随机 变量 任意 函数 的 近似 线性 形 
式 , 例如 采用 上 面 的 方 尘 可 以 得 到 


(有 =( 了 参 ) rp (如 (全) 


+ 如 用 X 经 orc, p39] 


1 pa 
- VP)+ 对 二 TV( 晤 ) 一 2 


pe [TCF) ,VV(E) , Cov(?, %) 
Br | rt ]. 1.25) 


(8) 刺 ( 召 ) 的 估计 
根据 (11.35) 式 ， 玉 (总 ) 的 一 个 自然 估计 是 
ff oF) ( 导 ) _2 .Qov( 依 , 导 ) 
"A + 2 ] 14.26 
其 中 %( 依 ).v( 例 ) 巨 由 (IL.28) 式 给 出 ,而 Cov( 依 , 全 ) 是 Cov( 依 , 县 》 
前 一 个 适当 的 估计 ， 因 此 现在 的 问题 焦点 在 于 给 出 Cav《 台 , 全) 的 形式 . 


垃 Cov( 侈 , 公 》 
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为 了 表达 简便 起 见 , 令 


一 1— ws 
WB— uy” 


1—2 (11.27) 


a " 
这 样 , 人、 至 可 分 别 表示 成 : 
他 = oP eo, 
全 一 i 合十 os 全 z， (11.28) 
内 于 召 ( 仓 ) 之 了 ,加 (全 ) 必 下 ,因此 
CQov( 人 ,县 ) 心 杏 ( 依 一 了 )( 全 一 及 ) 
二 历 [Ccr 他 -Fos 估 3 一 了 (oi 全 1 十 as 倪 ,一斑 )J 
— EB{[o(Ps— PY) +o(Ps Ya) + CF to Ta—Y)] 
x [ei( 舍 ,一 于 1) 十 qa( 全 ,一 及 a) 十 (ti 及 :十 cs 于 s 一 昼 )]} 
沪 叶 Qov( 依 1， 导 让 十 只 Cov( 依 so, 全) 
FoFitosPFa—Y)(mTt os 
必 咀 Qov( 傅 ;， 全) 十 虽 Qov( 参 ,全 ，). (11.29) 
为 合计 Cov (全,, 受 ,) (i 一 1,2), 我 们 仿照 相应 的 方差 居 计 v( 估 D [C14.19) 
式 ], 用 下 式 作为 它 的 估计 : 
Ooer( 了 ， 交合 如 ge 一 peeo) Ceu 一 Pozo)， 


Cr 


(11.30) 
其 中 
Po py 8D) 
加 六 


将 ( 开 .30) 民 入 (二 .29) 中 的 Cov( 史 将) 即 可 得 到 Oor (全 全) 的 
估计 Oo (全 ， 全 )， 队 而 获得 2( 双 ). 

三 、 各 省 及 全 国 目 标量 的 估计 

1， 省 目标 量 的 合计 

在 给 出 了 屋内 目标 量 的 入 计 及 其 精度 公式 (方差 估计 公式 ) 后 ， 利 用 
分 层 抽样 的 有 关公 式 就 不 难得 到 各 省 (自治 区 ) 相 应 目标 量 的 估计 . 

设 茶 省 ( 自 消 区 ) 由 荆 层 组 成 , 各 层 的 旦 权 为 
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_ 万 层 的 人 人 品 数 = 本 并 .32 
本 一 友 备 内 全 大 半 一 二 2 DD (11.82) 

此 时 全 省 (自治 区 ) 基 目标 量 总 量 亿 的 估计 为 
他- 3 (11.88) 


其 中 各 肩 的 多, 都 由 (11.20) 式 给 出 , 隐 的 方差 估计 是 ， 
2)- 加- G11.84) 


v( 全 ,由 (入 -28) 式 给 出 . 
至 于 全 省 (自治 区 ) 两 个 目标 量 总 量 之 比值 总 = 穴 / 完 的 估计 为 


让- 名 全 记 . (11.35) 





它 的 方差 估计 是 : 
vf)= 高 Wo(B). (13..36) 


(141.86) 式 及 (11.36) 式 中 的 疡 , 与 《入 ) 也 由 上 节 中 相应 的 公式 求 得 . 
2. 全 国 目标 量 的 估计 
在 此 项 调查 中 参加 调查 的 9 省 (自治 区 ) 并 不 是 从 全 加 所 有 省 .市 、 自 
治 区 中 随机 抽样 得 到 的 ， 但 是 在 确定 这 些 省 (自治 区 ) 时 是 经 过 某 种 考 虚 
的 .首先 是 它们 确 有 代表 性 , 其 次 也 考虑 了 调查 工作 开展 的 条 件 和 方便 . 
为 获得 金 国 相应 目标 量 的 估计 及 其 精度 , 我们 将 全 国 所 有 省 . 市 . 自治 区 
合成 四 种 不 同类 型 , 而 将 调查 的 9 省 (自治 区 ) 分 别 归 入 适当 的 类 型 , 从 而 
可 以 看 作 是 从 中 抽取 的 样本 省 。 因而 用 分 层 抽样 公式 即 可 推 得 有 关 全 加 
儿童 前 所 有 目标 量 的 估计 及 相应 的 方差 估计 , 具体 公式 从 略 . 
四 、 部 分 日 标量 的 估计 结果 及 其 糖度 
为 表明 本 项 目 接 上 述 抽样 方案 及 数据 处 理 模式 获得 的 实际 结果 ， 雪 
和 .7 列 出 了 各 再 查 省 (自治 区 ) 及 全 国 的 以 下 7 个 目标 量 的 估计 ， 
1. 儿童 总 数 了 ， 
- 儿童 在 总 人 口中 所 占 的 比例 ; 
.独生子 次 九 童 占 儿 童 总 数 的 比重 Es 
- 0~5 岁 儿 童 的 入 托 率 Bz; 
，6~14 岁 儿 童 的 在 校 宰 有 R,; 
. 6 心 14 岁 儿 童 裔 齿 患 率 BR 
， 黑 儿 死亡 率 Rs. 
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雪 坟 .7 对 每 个 目标 量 9， 分 别 烈 出 了 估计 量 9.，5 的 标准 差 信 计 
s( 闪 一 M0( 全 以 及 变异 系数 ov (BD) 一 s( 术 /8. 

根据 表 二 .7, 不 难 计 算 总 体 目标 量 9 真 值 的 置信 区 间 及 估计 量 引 的 
相对 误差 。 例如 浙江 省 儿童 在 总 人 口中 所 占 药 比例 卫 的 95% 的 守信 区 
间 为 . 
0.2332 士 1.96xD.0115， 
也 即 (21.07%, 25.57%%), 商户 23.32% 在 95% 的 置信 水 平 下 的 相对 
误差 为 : 

r(P)—1.960v(P)— 9.84%, 

对 不 同 的 项 目 , 调查 的 精 府 有 所 差别 ,反映 在 估计 量 的 变异 系数 上 . 
这 是 由于 对 不 同调 查 项 目 ， 有 效 样 本 量 有 较 大 差异 . 例如 在 计算 儿童 在 
总 人 日 中 所 占 的 比重 时 ,有 效 样本 量 是 入 口 总 数 , 而 在 信 计 独生子 女儿 童 
在 儿童 中 所 占 的 比重 时 , 有 效 样 本 量 应 是 儿童 总 数 。 有效 祥 木 量 大 , 则 佑 
计 精 度 较 高 。 此 和 外, 对 一 些 项 目 , 车 调查 误差 大 , 则 由 于 这 部 分 非 抽 样 误 
差 的 影响 , 也 使 估计 量 的 标准 苦 增 大 . 

评 注 

1) 这 是 我 国 国家 统计 局 与 联合 国 儿童 共 金 会 的 合作 项 目 ,1987 年 
的 这 次 是 第 二 次 儿童 情况 调查 ， 此 次 调查 在 作 设 计 前 就 已 选 定 需要 请 查 
的 9 个 省 (自治 区 ), 它们 不 是 从 爹 国 省 (市 .自治 区 ) 中 随机 抽取 的 ， 抽 样 
设计 实际 上 只 对 每 个 省 (区 ) 而 言 , 因此 严格 地 说 ; 对 总 体 目标 量 的 估计 只 
对 调查 省 (区 ) 有 有 意义、 不 过 监 于 所 育 查 的 9 个 省 (区 ) 确 实效 往 了 全 国 不 
同类 型 的 省 (区 ), 我 们 采用 事后 分 层 方法 , 把 全 国 除 台 湾 省 以 外 的 29 个 省 
《自治 区 .直辖 市 ， 当 时 尚 无 海南 省 ) 分 成 四 种 不 同类 型 ， 并 将 9 个 调查 省 
看 作 是 从 这 四 大 类 型 省 中 抽出 的 随 机 样本 ， 再 作 全 国 目标 量 的 估计 这 
仅 是 一 种 不 得 已 的 办 法 ， 不 过 在 不 准备 对 所 有 的 省 都 进行 调查 的 全 国 性 
项 目 , 这 不 是 唯一 的 例子 。 这 其 中 既 存 主持 单位 种 种 特殊 的 考虑 , 也 有 诺 
如 调查 组 织 , 甚至 经 费 支持 等 实际 因素 ,此 时 抽样 者 唯一 可 以 向 的 是 在 可 
能 的 条 件 下 , 尽 可 能 使 调查 的 样本 省 有 最 好 的 代表 性 . 

2) 为 了 提高 精度 ,每 个 调查 省 为 氨 城 市 与 县 分 层 ， 其 中 其 按 所 处 地 
理 位 置 竟 地 形状 况 分 成 三 类 , 这 一 点 与 $ 开 .2 中 国 儿童 5 岁 以 下 死亡 抽 
样 调查 类 似 . 在 我 国 , 处 于 平原 、 丘 院 ; 山 区 误 高 原 地 区 的 经 济 文化 水 平 差 
异 其 大 , 将 它们 分 类 作为 不 同 导 处 理 是 合理 的 。 但 在 本 例 中 并 不 将 每 个 


















































11.6 北京 地 区 专业 技术 人 员 现状 抽样 调查 351 


省 的 县 一 律 分 成 小 层 ， 而 是 按 每 类 县 的 数目 多 少 分 成 若干 小 层 ， 例如 办 
川 省 的 丘陵 县 有 59 个 ,分 成 2 个 小 层 ;山区 或 高 原 县 有 111 个 ,分 成 4 个 
小 层 . 这 样 做 的 原因 是 ， 我 们 考 碟 抽样 及 以 后 数据 处 理 的 方便 , 将 每 个 小 
层 中 抽取 的 市 、 县 数 一律 定 为 2。 本 例 中 在 每 个 小 层 中 采用 的 仍 基 
Yates-Grandy 逐个 抽取 法 , 这 并 不 是 一 种 严格 的 wPS 抽样 ,但 抽样 方法 
比 Brewer 或 Durbin 方法 简单 , 虽然 数据 处 理 稍为 复杂 些 , 但 差别 并 不 
大 : 

3) 样本 市 县 内 的 第 二 阶 抽样 是 以 居 ( 村 ) 民 委员 会 为 基础 的 吾 群 扫 
祥 . 为 加 免 不 同 居 ( 村 ) 民 委员 会 规模 相差 太 大 , 事先 经 过 适当 调整 ， 采 用 
吝 群 抽样 是 为 了 油 查 的 便利 ， 因 为 该 项 调查 不 仅 使 用 通常 的 调 查 表 ( 问 
卷 ) 形式 ， 也 需 有 医生 对 每 个 儿童 进行 健康 检查 . 样本 太 分 散 不 利于 实 
施 ， 不 过 实际 表明 本 例 中 的 居 ( 村 ) 民 委员 会 规模 过 大 ， 似 取 居 (村 ) 民 小 
组 为 群 , 更 为 合理 , 这 样 总 样本 量 还 可 减少 ， 且 更 能 保证 调查 质量 . 不 过 
以 居 ( 灶 ) 民 小 组 为 群 要 增加 搬 样 的 复杂 性 ， 即 需要 每 个 市 。 且 具备 以 居 
(村 ) 民 小 组 为 基本 抽样 单元 的 抽样 框 。 在 多 数 情 形 ， 这 种 条 件 不 具备 或 
需要 专门 涂 准 备 ， 当 然 一 个 可 行 的 方法 是 在 抽样 中 增加 一 阶 抽样 , 在 市 
其 中 先 抽 取 街道 或 居 ( 村 ) 委 会 ,然后 再 抽 居 (村 ) 虹 小 组 . 不 过 这 样 又 增 
加 了 数据 处 理 的 复杂 性 . 

4 本 案例 中 的 数据 处 理 方法 即 第 二 段 中 的 目标 量 估计 及 其 方差 佑 
计 是 十 分 严格 的 , 完全 与 披 样 设计 配套 ， 伯 为 总 体 总 和 估计 公式 ( 工 .20) 
与 方差 信 计 公式 ( 逢 .23) 都 是 严格 的 ， 而 对 于 两 个 目标 量 总 数 及 它 的 比 
值 召 的 估计 方 卷 ， 我 们 采用 了 第 9 章 中 的 Taylor 级 数 法 . 至 于 它 的 方 
差 估 计 ， 关 键 在 于 Oo (全 ， 人 全)， 本 案例 中 利用 (114.29) 式 将 它 化 成 
Cov (他 全) 与 Oov (他 全:) 的 估计 ， 而 后 者 的 估计 比较 容易 ， 这 是 本 
案例 中 的 创新 之 处 
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为 摸 浅 北京 地 区 各 种 专业 技术 人 员 指 基本 情况 , 了 解 他 们 的 愿望 .要 
求 及 对 当时 政 草 中 出 现 的 许多 问题 的 态度 , 出 北京 市 科技 干部 局 主持 , 在 
1987 年 组 织 了 一 次 北京 地 区 专业 技术 人 员 《 合 中 小 学 教师 ) 现状 的 捍 样 
们 本 节 正文 引 自 双 士 歼 \ 杨 将 勇 ?< 北 京 地 区 专业 技术 人 员 现状 抽 状 调查 的 抽样 设计 、 数 据 

处 理 方法 和 精度 分 析 > 原 载 < 应 用 构 率 统计 ?，1991， 第 了 卷 第 4 期 ,225 一 433。 
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调查 ， 这 次 调查 的 另 一 个 目的 是 配合 全 国 就 同一 目的 进行 的 抽样 调查 . 
鉴于 北京 具备 其 他 省 市 所 缺乏 的 某 些 特殊 条 件 ， 北 京 地 区 的 调查 与 全 国 
范围 内 的 调查 在 证 查 对 象 、 扫 样 与 问卷 设计 等 方面 都 有 所 不 同 。 但 两 者 
并 不 矛盾 , 经 过 适当 技术 处 理 , 北京 地 区 调查 结果 可 以 纳入 全 国 调查 结果 
中 . 

受 主 持 单位 委托 , 我 们 承担 了 此 项 调查 的 抽样 设计 , 我 们 采用 分 层 多 
阶 不 等 概率 拍 样 方法 ， 对 市 属 单 位 及 中 央 在 京 单位 各 抽取 250 个 基层 单 
位 , 每 个 基层 单位 抽取 10 人 , 全 部 共计 5000 个 专业 技术 人 员 进 行 了 间 卷 
调查 ， 与 此 同时 ， 我 们 给 出 了 与 设计 相 适 应 的 从 样本 对 总 体 各 种 目标 量 
的 估计 及 其 精度 的 公式 . 对 调查 所 得 数据 的 处 理 结果 表明 ， 这 次 调查 的 
精度 完全 达到 了 事先 确定 的 设计 要 求 ， 

一 。 抽 料 设 计 

1 总 体 划分 及 抽样 框 的 准备 

此 次 调查 的 总 以 可 分 为 两 个 子 总 体 ， 即 北京 市 属 单位 及 中 央 在 京 单 
位 的 专业 技术 人 抽 ， 经 统计 ，1986 年 底 北京 市 属 单位 专业 技术 人 员 数 为 
398, 140 人 ， 中 央 在 京 单位 专业 拉 术 人 员 数 为 34l,254 人 ， 合 计 共 
Y39,394 人 、 

为 抽样 方便 , 将 所 有 市 属 单位 按 系 统 归并 为 计 委 .经 委 等 共 14 层 . 济 
出 层 内 所 属 局 一 级 单位 名 称 及 其 专业 技术 人 员 数 , 形成 完整 的 抽样 框 . 同 
样 , 将 中 央 在 京 单位 技 部 、 委 .等 部 门 列 出 共 104 个 ， 如 同市 属 单位 一 样 ， 
这 些 邦 门 也 可 进一步 细 分 , 同时 统计 各 部 门 专业 技术 人 员 数 。 

2. 样本 量 的 确定 与 分 配 

我 们 根据 对 目标 量 估计 的 精度 要 求 确定 样本 量 .. 此 次 调查 的 目标 量 
多 数 以 比例 形式 出 现 。 设 纪 是 在 给 定 的 置信 水 平 1 一 a 下， 总 体 比 例 卫 
的 估计 量 台 的 最 大 允许 绝对 误差 , 即 了 满足 























PB- Pl<D) 1—o, {11.87) 
则 对 简单 随机 抽样 , 当 抽 样 比 很 小 时 , 所 需 的 样本 量 ( 按 人 计算 ); 
mo 一 PL— PY/e, {11.88) 


其 中 是 标准 正 态 分 布 的 双 侧 ax 分 位 数 . 我 们 取 1 一 m95%, gd 一 2%. 
直 时 we 一 1.96 才 2， 叉 PLCI 一 PP) 用 它 的 最 大 可 能 值 0.25 代替 ， 则 根据 
(2.2) 式 有 roo 一 2500， 实 际 需 要 的 样本 量 还 需 将 它 梁 上 设计 效应 (def). 
我 们 估计 de 和 f 汪 3， 于 是 实际 需 抽 ' mm 一 2500x2= 5000 人 。 调 查实 际 达到 
的 精度 及 aeff 值 的 进一步 估计 在 第 三 段 中 进行 讨论 。 
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由 于 实际 调查 采用 派 调查 员 面 访 形式 , 考虑 到 调查 经 费 , 人 力 以 及 效 
率 , 我 们 确定 在 每 个 被 抽 中 的 基层 单位 中 调查 40 人 .。 这 样 ， 全 部 共 需 调 
查 500 个 基层 单位 

凯 怖 调查 的 500 个 基层 单位 分 中 市 属 单 位 与 中 央 单 位 各 半 ， 在 考虑 
市 属 单位 时 , 我 们 洒 用 了 最 优 分 配 ， 因 为 在 市 属 单位 的 14 层 中 , 涉及 区 、 
上 县 系统 的 两 必 , 专业 技术 人 员 多 集中 在 中 小 学 及 区 、 县 属 的 医院 与 卫生 院 
等 , 人 员 结构 简单 , 情况 相近 , 因而 层 内 方差 较 小 ， 此 外 , 远郊 区 县 由 于 交 
通 不 便 ， 人 均 调 查 费 用 较 大 ， 于 是 将 市 属 14 层 分 成 不 局 于 区 县 的 各 系 
统 、 远郊 区 县 及 城区 与 近郊 区 三 大 层 。 去 大 屋 的 权 按 专 业 按 术 人 员 癌 分 
别 为 矿 1 一 61%%、 到 一 15% 和 琅 , 一 24 和 %， 假定 有 关 区 县 的 两 层 的 层 内 
方差 是 其 他 系统 层 内 方差 的 1/2， 即 去 蝇 - 器 - 58 远郊 区 县 的 单位 人 
员 调查 费用 是 其 他 两 层 的 2 倍 ， 即 os- 3cx- 2cs, 则 根据 分 层 抽样 中 的 最 
优 分 配 , 每 大 层 样本 量 (为 方便 起 见 ， 以 下 以 基层 单位 数 计算 ): 

mocnWaSs/ wo (k=1, 2,3). (11.89) 

其 中 m=250， 由 此 可 守 算 得 mm 一 178, ns 一 22, me 一 50， 其 中 第 一 大 层 也 
即 非 区 县 的 12 个 系统 ( 层 ) 共 需 抽 178 个 基层 单位 , 这 些 单位 按 各 层 大 小 
到 专业 技术 人 员 数 成 比 鲍 的 原则 分 本 

至 于 中 央 单 位 需 抽 的 350 个 基层 单位 ， 由 于 具体 的 抽样 不 是 按 分 层 
进行 的 , 故 不 需 事 先进 行 分 配 ， 但 根据 下 面 第 3 段 中 记述 的 方法 , 在 104 
个 部 门 中 实际 热 中 的 基层 单位 数 共 本 上 也 与 各 部 门 中 的 专业 技术 人 员 数 
成 比例 . 

3. 具体 抽样 程序 

由 于 两 个 子 总 体 抽样 要 形式 及 具体 条 件 不 尽 相同 ， 因 此 采用 的 抽样 
方法 也 有 所 不 同 。 

对 市 属 单位 , 采用 分 层 多 阶 贰 祥 。 其 中 在 有 关 区 、 基 两 层 肉 ， 又 采用 
按 多 种 方式 进一步 分 层 技术 , 既 接 不 同 前 区 .县 分 , 又 按 单位 的 性 质 分 . 具 
体 地 说 , 城区 近 部 芍 层 与 远郊 区 县 层 又 稍 有 差别 。 对 于 后 者 , 为 使 样本 单 
位 进一步 集中 ， 先 将 所 局 10 个 区 县 按 经 济 发 展 水 平 入 为 两 小 层 ,然后 按 
简单 随机 抽样 分 别 在 两 小 层 中 共 抽取 5 个 区 县 进行 清查， 对 城区 近郊 区 
层 , 则 将 每 个 区 作为 一 小 局 以 上 各 区 县 的 所 有 单位 都 按 学 校 、 医院 (或 
卫生 院 ) 及 其 他 单位 秃 为 三 类 (也 作为 小 层 处 理 )， 在 以 上 分 层 (类 ) 中 都 
接 比 例 分 本 的 原则 分 配 记 需 调查 的 直 层 单位 数 ， 至 于 各 区 县 每 个 小 层 内 
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的 抽样 则 是 按 简 单 随机 抽样 抽取 基层 单位 ， 在 每 个 被 抽 中 的 基层 单位 中 
按 简 单 随机 抽样 或 等 距 抽样 拖 取 10 人 的 方法 ， “ 

在 区 .其 以 外 的 其 他 12 层 内 ; 我 们 都 采用 三 阶 抽样 , 即 层 内 抽 肩 级 单 
位 , 局 级 单位 内 抽 基 层 单位 , 基层 单位 内 摘 人 的 方法 . 

第 一 阶 抽样 妓 层 内 抽 局 奴 单 位 的 方法 是 按 (层级 ) 单 位 大 小 成 比例 的 
放 加 不 等 概率 (PPS) 抽样 。 具体 方法 是 ; 设 该 层 共有 刀 个 局 级 单位 , 第 
5 个 局 级 单位 有 专业 技术 人 员 好 人 . 令 


x 
Mo— 2 Me, “= Mi Mo, 


























叉 设 分 配给 该 层 的 样本 量 为 "个 基层 单位 ， 则 需 独 立地 做 % 次 放 回 随机 
抽样 ,每 次 第 % 个 局 级 单位 的 入 样 概率 为 %， 记 mw 鸭 在 这 % 次 抽样 中 , 第 
$6 个 局 级 单位 入 样 的 次 数 , 此 数 即 为 该 局 级 单位 内 需 调查 的 基层 单位 数 。 
mw 可 能 为 0. 

第 二 阶 抽样 吨 是 在 第 一 阶 抽样 中 被 抽 中 的 局 级 单位 中 抽取 记 需 要 数 
基 的 基层 单位 . 其 方法 仍 是 PPS 抽样 (但 不 放 回 ， 在 抽样 中 重复 手中 的 
不 计 , 直到 抽 到 不 同 的 且 满足 要 求 数 量 的 基层 单位 为 止 )， 对 于 其 中 基层 
单位 大 小 相差 不 多 的 局 级 单位 也 采用 简单 随机 抽样 - 

第 三 阶 抽 样 是 在 每 个 被 抽 中 药 基 层 单位 中 抽取 10 人 进行 实际 调查 - 
方法 是 按 该 单位 专业 技术 人 员 的 名 册 用 简单 随机 或 等 距 贡 样 方法 抽取 , 

中 央 在 京 单位 的 抽样 也 采用 上 述 市 属 单位 层 内 采用 的 三 阶 抽 样 法 . 
即 在 全 部 104 个 部 站 中 用 PPS 抽样 部 门 ， 独 立 重复 250 次 .每 个 部 门 
被 抽 中 的 次 数 好 为 该 部 门 中 所 需 抽 的 基层 单位 数 ， 结 果 有 ?76 个 部 门 被 
抽 中 。 至 于 在 这 些 部 门 中 抽 革 层 单 位 以 及 在 基层 单位 中 扫 人 的 方法 与 市 
属 单位 层 内 第 二 .三 趴 抽样 完全 相同 . 

二 、 数 据 处 理 公式 

1. 目标 量 的 分 类 。 

根据 问卷 ， 此 次 调查 共有 107 个 问题 ，647 个 选择 项 ，833 个 调查 指 
标 或 需要 估计 的 总 体 腿 标量。 这 些 目标 量 从 其 形式 可 分 成 以 下 四 类 ， 

(总体 或 子 总 体 的 总 值 二， 部 某 个 指标 2 的 总 栖 (或 在 统计 范 苇 
内 ) 的 总 和 , 例如 北京 地 区 专业 技术 人 员 家 庭 居住 总 面积 等 ; 

(2 总体 或 子 总 体 的 平均 数 王 .例如 平均 月 收入 等 ; ， 

《8) 总 体 比 例 ， 技 某 种 类 别 或 准 旭 分 类 的 专业 技术 人 员 在 全 体 专 业 
技术 人 员 中 所 占 的 比例 ，: 例 如 1978 年 以 来 出 过 国 或 去 过 于 站 地 区 人 员 
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在 全 体 专 业 技术 人 员 中 所 占 的 雍 例 等 ; 

(9 两 个 总 体 总 量 或 平均 数 的 比值 R= 了 /~ 了 /里 ， 其 中 4 是 另 
一 个 指标 。 例 如 由 于 专业 不 对 口 而 造成 工作 时 间 内 任务 不 足 的 人 员 的 比 
例 ， 即 是 对 问题 308 作 该 项 选择 (应 填 1 者) 的 总 人 数 了 与 对 该 问题 所 
有 选择 非 零 的 ( 即 认为 恺 的 工作 时 间 内 任务 不 足 者 ) 总 人 数 下 的 比值 . 这 
里 了 与 子 都 需要 估计 . 

在 以 上 四 类 目标 量 中 ,前 三 类 都 可 归结 为 总 量 的 估计 .。 故 以 下 我 们 
具 需 对 了 、R 这 两 类 本 质 不 同 的 目标 量 进行 讨论 . 

2. 记号 

为 表达 方便 , 重新 规定 各 记号 的 意义 如 下 ， 

以 了 、 子 或 加 上 适当 的 下 标记 指标 信 v, ”在 一 定 范围 内 的 总 和 ， 记 
了 于 -了 /三 为 它们 的 比值 ， 而 依 、 倒 、 下 为 相应 的 全 计量 ; 0(*) 与 sC*) 一 
M500") 分 别 表 示人 居 计 重 的 方差 和 标准 差 的 估计 . 

以 五 为 层 的 编号 《在 不 会 引起 混 消 的 情形 也 常 被 省 略 );， “为 中 央 部 
站 或 市 属 局 级 单位 的 编号 (为 简便 起 匈 不 再 区 分 总 体 中 的 和 样本 中 的 )， 
在 样本 中 也 表示 基层 单位 编号 ; j 表示 被 调查 者 的 编号 . 

4 表示 玉民 内 专业 技术 人 员 数 ， 了 io- 六 对 ,为 所 考虑 范围 内 专业 
技术 人 员 总 数 ， 印 ,一 MMW MM。 为 层 权 ，sh 一 了 ayan 为 天 层 内 PPS 抽样 
中 第 “个 (局 级 ) 单 位 每 次 抽样 中 的 入 样 概率 ，rpa; 天 示 五 房 第 个 (样本 
基层 ) 单 位 中 回收 的 有 效 问 卷 数 . 

3. 中央 单 位 的 数据 处 理 公式 

对 每 个 被 调查 的 基层 单位 , 计算 

1 人 了 
了 一 -一 全 gt ee (11.40) 


Te 1 








DM 名 = MM 时. (C11.41) 


其 中 jy、wmy 是 该 单位 中 第 了 个 被 调查 者 对 冶 题 回答 的 指标 信 ， 民 ;是 该 
单位 所 在 部 门 专业 技术 人 员 数 ， 乡 , 与 总 | 是 元 偏 的 。 

” 由 于 对 部 门 的 抽样 ( 快 定 抽 哪 些 部 门 以 及 每 个 部 门 中 抽 几 个 基层 单 
位 ) 是 按 有 放 回 的 PPS 抽样 决定 的 , 放 对 总 体 总 和 估计 应 采用 下 述 前 
Hansen-Hurwitz 怖 计量 ( 见 参考 赛 料 [1]): 

他- 诗 襄 了 /a 一 高 信 ， 人 -二 为 站 /ae 六 尼 。 (11,49) 


nm 
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这 里 = My/ Mo，aMe 是 中 央 在 京 单位 专业 技术 人 员 的 总 数 ， 而 ”一 3250- 
他 .证 也 是 无 偏 的 . 
对 陡 比 值 理 目标 量 吾 的 估计 , 我 们 用 _ 
一 全 /全 。 (11.48) 

至 于 全 的 方差, 若 忽 略 第 三 阶 抽样 的 误差 , 按 二 阶 抽 样 计算 , 有 

VY) + 六 (EE -了 了 + 高 Go ,11.44) 
其 中 fa 是 第 5 部 门 中 二 芥 抽样 比例 ，S3 是 第 了 部门 内 总 体 方差 ， 刀 是 
部 门 总 数 , 即 104。(41.44) 式 适 用 于 第 一 阶 抽样 为 放 回 PPS 抽样 , 而 第 
二 阶 抽样 中 每 人 样本 单元 (相当 于 基层 单位 ) 也 必须 放 回 总 体 的 情形 ， 实 
际 抽样 对 基层 单位 和 人 员 都 是 不 放 回 的 。 车 将 后 二 阶 抽样 合 在 一 起 作为 
简单 随机 抽样 处 理 , 则 实际 方差 应 比 (11.44) 稍 小 (参见 参考 资料 [8]), 也 
如 应 为 
































VP)- 六 名 a (并 ry+ ， 去 加 J 


一 -3D 汪 2 全 (11.45) 


由 于 第 一 阶 抽 样 是 放 回 的 pm 抽样 , 从 而 他 , 是 相互 独立 的 , 是 站 前 
已 指出 的 ， 剑 , 是 无 偏 的 ， 况 此 摄 ( 见 参 考 绽 料 [六 





*0)- Ty AL TCR 一 1 pe :—?) ” C1.46) 
是 玉 ( 他 ) 的 一 个 无 偏 估计 量 ， 同样 对 4 碍 
oC 全 ) 一 zy 本 侣 过 名 2 C11.47) 


为 推导 召 的 方 闭 及 其 估计 ， 我 们 利用 总 = 了 /全 的 Taylor 展开 , 取 
其 线性 项 , 求 其 方差 可 得 : 
fel YP) ， 灰 (全 ) ,Cov(P, 人 ®) 
VDA 2 ]. Cdt.48y 

















( 寺 .46) 与 (11. 和 哲 ) 式 已 给 出 信 ( 傅 ) 及 六 ( 呈 ) 的 估计 , 为 获得 协 方差 
Cov{ 艰 , 哇 ) 的 估计 ， 令 
Wis TT Bes {11.49> 
将 二 作为 另 一 个 指标 。 DT,、T 的 估计 以 及 六 的 方差 估计 oC )， 都 可 用 
与 钙 、 全 、9( 全 ) 相 类 似 的 公式 计算 ， 另 一 方面 , 下 六 一人 十 克 知 
CovC 仿 恒 )= 计 VO-VOP)-VE)I. 《1.50) 
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于 是 Cov ( 仑 , 至) 可 用 下 式 估计 ; 
Oov( 子 , 公 = 寺 [oGO) 一 o(?) 一。 全)]， G1.61) 


综合 (了 .48) 与 (二 . 碟 ) 式 , 六 (我) 的 估计 为 
2 一 人 |[ E+ 2 “0 ]. (11.59) 





4. 市 属 单位 的 数据 处 理 公 式 

根据 抽样 方法 , 市 属 单位 中 有 关 区 .县 黄 层 内 采用 多 种 方式 的 他 细 分 
层 , 而 小 层 内 采用 二 院 简单 随机 抽样 ， 为 篇 化 起 兄 , 我 们 采用 分 层 随 机 抽 
样 公式 处 理 ， 设 每 屋内 又 分 为 工 小 层 , 小 层 的 专业 技术 人 员 数 为 Ms， 
总 人 数 为 Mo, 了 本" 一 好 wo 则 


他 = Mo 估 = Mo 证 TT 高 依 ;, (11.53) 
其 中 
如 -起 入 ww (11.54) 


是 妨 小 层 y 指 标的 样本 平均 数 , 也 的 方差 佑 计 ( 由 于 抽样 比 户 很 小 , 急 咯 
不 计 ) 为 








-高 二 只 oo 一 2 (11.55) 
对 于 小 层 内 比值 型 目标 量 BB 的 佑 计 则 为 
一 全»/ 全 ;， (11.56) 
它 的 方差 知 计 为 
vB)— i (gn — Byeas) 3, (11.57) 
其 中 > 
五 = 二 入 mv (11.58) 
于 是 ; 
A- WB, C11.59) 
页 五 
2 有 一 WI). (11.60) 


至 于 除 区 、 县 以 外 的 其 余 市 展 各 系统 12 层 , 由 于 层 内 抽样 方法 与 对 
中 天 在京 单 位 抽样 完全 相同 ， 因此 俩 计量 及 其 方差 估计 也 完全 与 上 面 第 
3 有 女 中 的 相应 公式 相同 , 只 要 加 上 层 的 编导 即 可 .。 而 为 得 到 市 属 所 有 14 
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层 前 汇总 结果 , 则 再 次 根据 分 层 抽样 的 公式 , 即 可 得 到 。 

所 .全 北京 地 区 目标 量 的 估计 与 方差 合计 

全 北京 地 区 目标 量 前 估计 是 将 中 央 单 位 与 市 局 单位 作为 两 天 层 考 
虑 。 将 上 面 第 3 妈 与 第 4 段 中 所 得 的 结果 也 用 分 层 抽样 有 关公 式 汇总 即 
可 得 到 全 北京 地 区 目标 量 的 估计 及 其 方差 估计 . 

三 、 部 分 调查 结果 的 实际 精度 及 抽样 的 设计 效应 

i. 样本 回收 情况 及 质量 

实际 调查 采用 派 调查 员 面 访 的 形式 ， 所 有 调查 员 经 过 短期 培训 ， 在 
正式 调查 前 又 进行 了 试 调查 .因此 调查 质量 较 高 ,问卷 回收 率 达 到 
3100 和 ,其 中 有 效 问卷 率 为 99.94 免 、 故 可 以 排除 不 回答 引起 的 非 抽样 误 
其 ， 在 数据 录入 前 后 的 各 个 环节 都 还 行 了 严格 的 质量 控制 . 

2. 昌 标 基 估 计 的 实际 糙 度 

在 一 .2 段 中 我 们 规定 了 调查 的 设计 精度 是 在 置信 水 平 95% 下 ， 关 
于 比例 理 估 计量 的 绝对 误差 不 超过 2 外 . 根据 前 面 给 出 药方 差 估计 公式 ， 
对 每 个 目标 量 进行 计算 , 即 可 获得 对 每 个 目标 量 估计 的 实际 精度 的 估计 . 
上 段 中 的 精度 都 是 以 w(') 形式 给 出 的 ， 营 换算 成 给 定 置信 水 平 85 和 的 
最 大 绝对 误差 如, 有 以 下 关系 

Gd'— te Tt —1,968(.). 11.61) 

此 外 ， 信 计量 的 精度 也 常用 最 大 相对 误差 7 或 变异 系数 cv 表示 .7 

也 是 对 一 定 置信 水 平 意义 下 而 言 的 ， 例 如 对 了 的 估计 量 参 , 7 满足 


























P(| 寻 工 | =- 二 = (11.62) 
它 与 s(*) 及 ev(*) 之 间 有 关系 
了 一 was(F)/P— uv(P). (11.63) 
表 卫 .8 列 出 了 此 次 调查 全 部 833 个 以 比例 或 比值 形式 的 总 体 目标 
量 鸽 计 和 的 标准 差 的 分 布 情况 . 


如 有 果 换 算 成 实际 达到 的 最 大 绝对 误差 * 完 2s， 则 可 看 到 897.3% 的 
最 大 绝对 误差 小 于 等 于 设计 精度 2%， 这 个 比例 比 规定 的 置信 水 平 95 儿 
高 , 可 见 调查 完全 达到 了 事先 要 求 的 精度 . 

3. 设计 效应 (def) 

显然 ， 精 度 必须 在 相同 样本 量 下 进行 比较 才 有 实际 意义 . 及 iah ( 见 
参考 资料 [2]) 引进 称 为 设计 效应 (de 人 ) 的 量 来 表示 一 个 复杂 抽样 设计 的 
效率 ; 
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表 寻 .8 有 关 比 例 或 比值 型 目标 量 估 计 的 标准 差分 布 











标准 差 范 围 频 数 
sc0.296 155 16.8% 
0.2%<s0.596 297 35 7% 
0.596<<s<c1.099 858 48.0% 
I.0%<s1.5 和 6 21 2 .598 
1.590 < 一 s<1.3 弛 2 0.2% 
合 计 833 100%% 
deff— 按照 复杂 抽样 设计 估计 量 的 方差 (11.64) 





按 简 单 随机 扫 样 同样 本 芭 时 俩 计量 移 方差 
例如 对 一 个 比例 型 佑 计量 了, 对 简单 随机 抽样 (SRS), 当 总 拌 本 量 为 
% 时 , 它 的 方差 佰 计 《 当 和 忽略 有 限 总 性 校正 系数 时 ) 为 ， 


vsrs(P) PP) /rm, (11.65) 
于 是 此 次 调查 的 设计 效应 的 估计 为 : 
_ _5000v(P 
def 人 。 (11.66) 


若 将 所 有 可 以 化 成 比例 形式 的 总 量 估计 都 化 成 六 = 他 /2 的 形式 (其 
中 到 为 总 体 或 子 总 体 的 大 小 ), 对 比值 让 也 异 用 (了 代 .66) 式 ， 凤 可 计算 具 
体 的 deff 值 。 表 蕊 .9 是 问卷 中 某 个 问题 各 选择 项 目标 基 的 估计 值 ， 标 
淮 差 .变异 系数 与 deff 的 估计 信 . 


表 11.9 专业 技术 人 人 员 任 务 量 不 足 情况 及 其 原因 分 析 《 问 题 308) 











问题 选择 | 到 (96 stB)(90) | ev(B) (9%) de 
-~ 

0. 无 此 情况 (任务 地 注 ) 68.120 O09 1.3 1.86 
1. 专业 不 对 口 2.279 0.2 8.8 0.90 
3. 无 合适 工作 1.700 0.2 11.8 1.20 
3. 分配 不 当 3.124 0.3 日 .如 1.49 
4. 工作 条 件 不 具备 6.434 0.4 5.2 1.38 
5, 健康 原 办 0.912 0.1 11.0 0.55 
8- 没有 任务 ?7.282 0.4 5.5 1.18 
了 7、 人 多 事 少 4.062 0 了 ,入 1.15 
8. 领导 不 分 配 工作 2.155 0 9.8 0.95 
9, 其 他 原因 3.938 0.3 了 .6 1.19 


se0 第 并 这 案例 分 析 
对 随机 选择 的 15 个 问题 共 113 个 选择 项 所 作 的 统计 表 明 :， 变异 系 
数 有 46.02% 不 超过 号 多 ,， 69.03 兄 不 超过 了 .5 入 ， 人 .4 为 不 超过 140%; 
deff 有 66.37% 不 超过 1.5, 88.19%% 不 超 进 3， 其 平均 值 为 1.56。 在 司 
类 设计 中 ，deff 的 这 个 值 相当 小 , 这 表明 此 次 铀 样 设计 的 效率 较 高 ， 
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评 注 

) 本 案例 是 对 所 有 在 京 的 北京 市 属 与 中 央 所 属 单位 近 74 万 专业 技 
术 人 员 的 现状 进行 前 调查 ， 采用 典型 的 问卷 凋 查 形式 ， 共 调查 了 107 个 
问题 , 包括 647 个 选择 项 ， 与 一 般 问 卷 调 查 类 似 , 除了 绝 少 数 问 题 需 要 作 
出 定量 回答 外 ， 其 他 问题 仅 需 图 填 问 卷 中 所 列 的 选择 项 ， 因此 总 体 目标 
重 即 是 转 填 每 项 选择 项 的 比例 , 即 了 对 这 样 的 问题 样本 量 较 易 确定 , 首 
先 按 简单 随机 抽样 估计 精度 公式 ， 对 于 卫 一 0.5, 即 P9= 0.25 这 一 最 保 
守 ( 总 体 方 差 最 大 ) 的 情形 ,对 给 定 的 对 卫 估计 量 绝对 误差 限 吕 及 相应 的 
置信 度 ， 妈 可 确定 简单 随机 抽样 的 样本 量 ww。 车 取 置 信 度 为 95 多 ，C 一 
1%， 风 相应 的 民宅 10000; 车 取 9 一 2%%， 则 rr 才 2500， 一 般 的 4 不宜 取 
得 太 小 , 也 不 宜 取得 太 大 , 否则 , 不 是 需要 的 样本 县 太 大 , 就是 精度 不 够 ， 
结果 不 可 第， 通常 取 d 在 1% 必 .8% 范围 内 ， 实 际 冬 本 晤 n 一 nrdef, 即 还 
要 乘 上 设计 效应 ， 而 设计 效应 可 根据 对 类 似 调查 的 经 验 而 定 ， 例如 在 本 
案例 中 事先 估计 def 一 2, 而 根据 按 实 际 调查 结果 的 信 计 量 的 方差 售 计 的 
具体 结果 与 同样 样本 量 的 简单 随机 抽 祥 比 较 ( 如 本 案例 第 三 眉 中 记述) 即 
可 获得 deff 的 估计 ,虽然 就 每 个 指标 而 言 , 这 种 估计 是 不 同 的 ,但 可 以 要 
据 它 的 分 布 狂 定 ， 以 作 今后 类 亿 设 计时 的 参考 ， 在 本 讽 中 ,对 随机 选择 
( 因 没 有 对 所 有 项 都 进行 deff 计算 ) 的 118 个 选择 项 的 统计 ， 有 66.37% 
的 def 不 超过 1.5, 83.19% 的 项 不 超过 2， 因此 原先 估计 的 2 还 是 比较 
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合适 的 , 如 果 要 求 不 太 高 , 取 def 为 1.8 左右 也 就 可 以 了 . 

2) 在 设计 时 遇 到 的 一 个 重要 闻 题 是 抽样 框 的 编制 ， 选 用 合理 且 方 
便 的 抽样 框 是 实施 抽样 的 前 担 。 基于 每 个 专业 技术 人 员 都 属于 一 个 独立 
的 基层 单位 《不 独立 的 单位 或 兼职 的 单位 不 算 )， 而 每 个 基层 单位 又 月 所 
素 属 的 上 级 单位 或 主管 单位 ， 因 此 我 们 将 基层 单位 作为 基本 抽样 单元 ， 
在 每 个 被 拍 中 的 基层 单位 中 抽取 被 调查 的 专业 技术 人 员 ， 人数 园 定 为 10 
人 ， 这 样 便于 操作 ， 效 率 也 较 高 ， 当 然 如 人 是 不 是 最 佳 选择 与 每 调查 一 
个 单位 需 耗 费 的 人 力 与 时 间 有 关 , 这 里 仅 是 直观 上 觉得 比较 合理 的 数值 . 

3) 中 央 在 京 单位 与 北京 市 属 单位 是 作为 两 个 子 总 体 独 立 抽样 的 , 各 
扫 250 个 基层 单位 。 其 中 中 央 单位 药 隶 属 系统 比较 简单 , 按 部 站 即 可 获 
得 其 所 属 的 所 有 基层 单位 的 名 册 及 专业 技术 人 员 数 ， 因此 只 需 用 二 阶 抽 
样 妈 可， 这 比 采 用 更 高 界 的 抽样 效率 高 ， 由 于 各 部 门 中 的 专业 技术 人 员 
数 相差 很 天 , 因此 宜 用 不 等 释 率 抽样 , 本 例 中 采用 放 回 PPS 抽样 , 这 样 不 
仅 实施 方便 ， 而 且 数 据 处 理 也 简单. 按 所 分 配 的 350 个 基层 单位 的 样本 
基 , 对 全 部 104 个 部 门 独立 进行 250 次 抽样 , 以 每 个 部 门 被 拍 中 的 次 数 nn 
作为 该 部 门 需 铀 的 基层 单位 数 ， 按 简单 建 机 抽 祥 或 随机 起 点 的 系统 抽 痒 
在 该 部 门 中 抽取 ， 这 是 一 种 比较 巧 阔 的 方法 ， 结果 表明 ， 按 这 种 扯 样 与 
将 部 门 作 居 的 比例 分 配 的 分 屋 抽 样 的 结果 非常 接近 ， 差 别 仅 是 对 那些 规 
模 较 小 的 部 门 不 一 定 能 保证 被 抽 中 而 已. 

4 市 属 单位 的 隶属 关系 比较 复杂 , 上 、 下 级 层次 较 多 , 专业 技术 人 员 
集中 与 散布 的 情况 差别 很 大 , 因此 我 们 仔细 地 进行 了 分 层 , 首先 是 分 不 属 
于 区 、 县 管理 前 13 个 系统 作为 一 大 层 , 远郊 区 其 与 市 区 .近郊 区 作为 另外 
两 大 层 . 考 碟 到 各 大 层 的 层 内 方差 与 调查 费用 前 差异 , 我 们 使 用 了 一 般 情 
形 的 最 优 分 配 。 而 且 各 大 层 内 的 抽样 也 是 考虑 到 各 自 的 特点 ， 采 用 了 不 
同 的 抽样 方法 ， 不 过 基本 上 仍 是 分 层 ( 层 内 再 分 导 ) 多 阶 摘 群 ， 在 不 局 于 
区 县 管理 的 12 个 系统 中 , 第 一 阶 抽样 采用 了 与 中 央 单 位 抽样 相 类 似 的 方 
法 ， 总 之 ,本 案例 是 根据 具体 条 件 进行 精心 设计 的 一 个 范例 、 所 以 能 做 
到 这 样 , 主要 是 得 到 主持 单位 的 全 力 支 持 , 如 果 没 有 这 种 支持 ， 再 理想 的 
方案 不 能 操作 也 是 徒劳 的 . 

5) 本 案例 的 总 体 目 标量 估计 及 其 方差 估计 也 是 严格 与 抽样 方案 总 
套 的 , 其 中 包括 了 许多 与 $11.5 相 类 似 的 方法 . 值得 一 提 的 是 在 本 案例 
站， 在 对 总 体 两 个 总 量 了 与 互 的 比值 吾 的 估计 月 进 行 方差 入 计 时 ， 当 
应 用 Taylor 展开 将 其 化 成 关 鳃 的 估计 Oo ( 乡 ， 这 ) 时 ， 采 用 了 另 一 种 条 
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音 方 法 。 即 引进 新 指标 w 一 w+y, 将 必 接 与 .gy 样本 值 完全 相同 的 处 理 
于 可 获得 总 和 估计 的 方差 情 计 w( 人 )， 从 而 接 (3.12) 式 即 可 获得 
Oor( 全 ,多 ) 的 合计 Cov (他 对) . 

6) 本 案例 包括 833 个 需要 估计 的 总 体 目 标量 , 在 按 给 定 的 数据 公式 
处 理 后 ， 即 可 北 得 具体 的 村 计量 及 其 方差 (实际 上 结果 用 标准 差 形式 ) 数 
值 。 由 此 可 对 本 项 调查 进行 实际 精度 分 析 。 在 给 定 置信 和 度 1 一 ec 一 95 名 
下 ， 可 求 得 最 大 绝对 误差 "一 wns《8) 以 及 最 大 相对 误差 一 wev( 人 四 .本 
例 中 设计 精度 3 一 3 多 ， 若 取 因 一 2， 则 根据 表 世 ,8， 全 部 月 标量 中 有 
97.3%% 的 实际 起 <g、 这 个 比例 高 于 给 定量 信和 度 95 多 ， 表 明达 到 了 事先 
要 求 的 精度 ， 这 个 结论 也 与 设计 时 对 de 在 的 正确 估计 相 吻 合 的 ， 
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< 中 国 1986 年 74 城镇 人 口 迁 移 抽样 调查 >( 以 下 简称 < 迁移 调查 >) 是 
出 中 国 社会 笠 学院 人 口 厂 究 所 承担 , 得 到 联合 国人 口 活 动 基金 资助 , 被 列 
为 国家 “七 开 ” 期 间 暂 学 和 社会 科学 重点 研究 项 目 , 联合 16 省 (市 ) 人 口 研 
穹 单位 共同 合作 研究 < 中 国 城镇 上 人口 迁移 与 城镇 化 ?课题 的 组 成 部 分 ， 此 
项 < 迁移 调查 ?填补 了 我 国 城镇 人 口 迁 移 资 料 的 空 向 ， 提 供 了 我 国 自 1949 
年 以 来 城镇 人 口 迁 移 的 流量 ` 流 向 、 结 构 、 原 因 和 后 果 的 主要 数据 , 它们 不 
仅 是 人 口 学 、 经 济 学 、 社 会 学 、 地 理学 、 生态 学 等 学 科 所 需 的 基本 数据 资 
料 , 也 是 国家 决策 部 门 制定 改革 政策 的 参考 依据 . 

现 已 公布 的 计算 机 汇 益 数 据 资料 ( 见 本 节 人 参考 资料 [二 ) 是 按 城市 规 
楼 汇总 的 实际 样本 数据 . 为 进一步 将 这 些 宝贵 的 调查 数据 进行 开发 利用 ， 
我 们 针对 此 项 调查 的 抽样 设计 以 及 实际 需要 ， 运 用 抽样 调查 的 理论 和 方 
法 提出 了 94 城镇 人 口 迁 移 有 关 目 标量 的 估计 方法 以 及 对 全 国 相 应 目标 
量 的 推 总 估计 方法 , 并 用 随机 分 组 方法 对 74 城镇 上 述 目标 是 佑 计 揭 糖度 
《方差 ) 进 行 了 估计 和 分 析 , 同时 还 对 全 国 指标 的 推算 值 做 了 评估 . 

一 、 抽 桂 设 计 

< 迁移 调查 > 是 在 1986 年 了 月 开始 进行 的 , 同年 年 席 先后 完成 、 其 中 
38 个 城市 的 调查 范围 是 居住 在 城市 地 区 的 人 口 ， 即 居住 在 城市 市 区 . 近 
”) 本 节 正 文 节选 自 高 嘉陵 与 汉 士 夷 : “中国 1986 年 7& 城镇 人 口 迁 移 抽样 调查 目标 量 拓 


计 方法 与 精度 分 析 > 原 载 < 中 国人 口 科学 > 1991 年 第 3 期 , 1~8， 本 文 改正 了 原文 中 的 
者 干 印 厨 错误 。 
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部 区 .工业 匹 的 人 口 , 它 包 括 了 城市 中 绝 大 部 分 非 农业 人 口 和 一 小 部 分 农 
卫 人 口 ; 31 个 镇 的 调查 范围 是 镇 的 总 人 口 。 以 上 城市 的 请 查 范围 人 口 都 
已 有 明确 的 统计 , 我 们 以 此 做 为 < 迁移 调查 > 的 目标 总 体 . 《迁移 调 村 ?确定 
的 调查 样本 总 量 为 25000 户 。 各 省 (市 ) 遵 照 大 城市 多 抽 ,” 小 城市 和 镇 少 
抽 的 原则 ， 以 及 根据 本 单位 药 工 作 条 件 和 经 费 情况 确定 本 省 ( 鹿 ) 城 镇 的 
样本 量 , 从 和 而 决定 了 各 城镇 的 抽样 比 ( 祥 本 景 与 调查 范围 人 口 的 比 ). 

< 迁移 调查 > 的 抽 祥 方案 采用 四 级 整 群 抽样 ， 第 一 级 抽 祥 是 从 全 国 抽 
省 (市 ) 16 个 样本 省 (市 ) 即 16 个 人 口 研 究 单位 所 在 省 《市 ) 是 指定 的 ， 
是 根据 研究 单位 的 条 件 与 可 能 自愿 参加 的 ， 第 二 级 抽 桂 从 上 述 祥 本 省 内 
抽 城 镇 , 并 采用 典型 选取 和 随机 抽取 相 结合 的 方法 , 在 典型 选取 时 按 城 市 
规模 的 大 小 , 把 城镇 分 为 特 天 城市 (100 万 以 上 人 口 ) 大 城市 (50 一 IT00 万 
人 口外 中 等 城市 (320 一 50 万 人 口 )、 小 城市 (20 万 以 下 大 口 ? 和 镇 五 类 , 选 
取 中 汪 顾 各 种 功能 的 城镇 ， 第 三 级 抽 术 是 在 城镇 内 抽取 街道 ， 抽取 的 方 
法 是 按 比例 分 配 分 层 , 如 城区 、 近 郊区 、 工 业 区 .商业 区 等 层 ， 对 某 些 较 小 
的 城镇 也 有 不 分 层 情 说 ， 房 内 采用 等 概率 或 不 等 概率 按 地址 编码 系统 抽 
样 或 简单 随机 抽样 拐 取 街 道 ， 最 后 一 级 锅 样 是 在 被 轿 中 的 街道 内 用 等 概 
率 系 统 抽 样 抽取 家 庭 户 (集体 户 划 分 为 四 人 一 群 相当 一 户 , 集体 户 与 家 庭 
户 的 扯 取 比例 按 人 口 比例 分 配 )， 革 中 每 一 个 街道 抽取 的 户 数 也 按 该 街 
道 的 总 户 数 比 例 分 配 。 对 抽 中 的 户 则 进行 整 户 充 查 ， 即 调查 户 肉 所 有 成 
员 . 

二 、 笋 据 处 理 的 基本 思想 和 目标 量 的 确定 

以 上 < 迁移 调查 ?的 抽样 方案 , 从 整 钵 上 说 不 是 一 个 严格 交 概率 抽样 ， 
特别 是 在 省 (市 ) 一 级 和 城 .镇 一 级 均 未 按 概率 抽样 方法 抽取 , 因而 无 法 用 
抽样 调查 的 一 般 方法 处 理 , 如 和 根据 样本 对 目标 量 做 推 总 估计 和 精度 估计 . 
然而 , 我 们 注意 到 ， 这 16 省 (市 ) 已 超过 大 陆 当 时 29 省 (市 , 自治 区 ) 的 半 
数 , 且 东 北 、 华 北 .华东 .西北 、 中 南 .西南 各 地 区 内 至 少 有 2 个 省 (市 )、 假 
车 我 们 取消 省 (市 ) 一 级 , 直接 观察 94 城 .镇 , 从 城镇 的 数量 和 地 域 和 分 布 来 
看 对 全 国 还 有 一 定 的 代表 性 ， 并 且 各 省 (市 抽取 的 城镇 是 披 同 一 原则 典 
型 选取 的 , 办 此 车 对 调查 的 74 城镇 进行 合理 的 “ 究 后 分 层 ”， 则 可 以 利用 
分 层 抽 大 的 计算 方法 对 全 国 性 指标 进行 数据 处 理 . 

鉴于 以 上 理由 , 我 们 将 全 国 居住 在 城市 地 区 的 人 口 做 为 推论 总 体 , 而 
将 调查 的 74 城镇 中 城市 地 区 的 人 口 作为 目标 总 体 . 

迫 此 我 们 分 两 步 进 行 数据 处 理 ， 第 一 步 对 每 个 调查 的 城镇 计算 有 关 
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目标 量 的 售 计 和 相应 的 方差 估计 ， 然 后 汇总 为 目标 总 体 相应 的 入 计 ， 第 
二 步 将 推论 总 体 和 目标 总 体 按 同 一 原则 分 层 , 由 74 城镇 昌 宗 总 体 主要 目 
标量 的 估计 分 层 加 权 得 到 全 国 城镇 人 口 ( 推 论 总 体 ) 迁移 指标 的 推算 值 。 
由 于 ”74 城镇 不 是 按 概 率 抽样 从 全 国 抽取 的 , 因此 ,对 于 推论 值 的 偏差 和 
精度 则 根据 ?4 城镇 目标 量 千 计 与 方差 估计 , 做 经 验 的 定性 分 析 . 

在 数据 处 理 的 第 一 步 中 ， 我 们 首先 给 出 各 城镇 目 味 总 体 各 类 目标 量 
的 信 计 公式 ， 对 每 个 未 知 的 生 标 量 0， 用 省 查 所 得 的 样本 数据 对 它 进行 
估计 ， 得 到 估计 量 和 由 于 地 随 样 本 而 异 ， 故 有 必要 对 它 的 精度 加 以 讨 
论 ， 播 述 一 个 估计 量 精度 的 准则 之 一 是 它 的 方差 。 方差 表 示 信 计量 偏离 
其 均值 (对 无 偏 估 计量 也 就 是 目标 量 9 的 真 值 ) 的 大 小 的 稀 量 ， 这 种 偏离 
在 抽样 调查 中 是 不 可 避免 的 。 如 果 我 们 用 同一 种 抽样 方法 重复 多 次 ， 妈 
可 得 出 方差 的 估计 .。 当然 在 实际 中 重复 抽样 是 不 大 可 能 的 , 因而 根据 样 
本 数据 作 方差 估计 是 十 分 重要 的 。 在 < 迁移 调查 > 中 , 由 于 采用 的 抽 样 方 
案 比 较 复杂 , 且 在 各 城镇 中 方法 也 不 尽 相 同 ,因此 在 进行 方差 估计 时 ， 没 
有 直接 的 公式 可 用 , 在 本 文中 我 们 采用 了 随机 分 组 法. 

随机 分 组 法 亦 称 交叉 子 样本 法 ， 它 的 基本 思路 是 将 含有 呈 个 单元 的 
样本 ( 母 样本 ) 按 一 定 方式 划分 为 8 个 (>2) 子 样本 (随机 组 )， 先 分 别 求 
得 每 个 子 样 本 以 及 母 样本 日 标量 的 信 计 ， 用 不 同 子 祥 本 估计 量 之 间 的 差 
异 估计 总 体 肯 标量 前 方差 . 依 机 分 组 方法 的 基本 要 求 是 这 些 子 样本 ( 随 
机 组 ) 的 构成 一 般 要 求 与 母 样 本 的 抽 祥 方法 相 一 致 , 也 就 是 说 子 样本 的 抽 
祥 结 构 与 母 样本 欧 结 构 基 本 相同 . 

为 了 达到 上 述 目前 ， 我 们 将 每 个 城镇 中 每 个 祥 本 街道 中 的 所 有 调 可 
户 按 一 定 方法 ( 详 见 下 面 第 三 小 节 ) 划分 为 组， 特大 城市 一 般 分 为 巧 
组 (上 海 分 50 组 ), 大 城市 .中 等 城市 .不 城市 分 10 组 , 镇 分 5 组 ， 以 保证 
每 一 个 街道 小 组 中 有 电 至 10 户 的 样本 量 。 城镇 中 所 有 样 水 街道 的 第 一 
组 组 成 城镇 的 第 -个 子 样本 ， 记 有 前 第 二 组 组 成 第 二 个 子 样本 ， 以 此 类 
推 , 这 样 将 城镇 母 样 本 划分 为 8 个 子 样本 (随机 组 ). 分 别 对 母 样本 及 天 个 
子 样 本 进行 数据 处 理 ， 然 后 对 每 个 城镇 进行 目标 总 体 目 标量 的 估计 及 其 
方差 佑 计 . 

数据 处 理 的 第 二 步 , 首先 将 推论 总 体 按 目 标 总 体 的 原则 分 层 , 然后 计 
竺 推论 总 体 目标 量 估计 值 . 

我 们 将 74 城镇 按 地 理 分 布 (沿海 ,内 地 .边远 地 区 ) 及 城市 规模 (特大 
城市 .大 城市 .中 等 城市 .小 城市 及 镇 ) 共 15 层 . 
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推论 总 体 全 国 城镇 的 分 层 将 在 下 曾 第 四 自 < 全 国 及 各 种 规模 城市 和 
镇 人 口 迁移 指标 的 推算 ?中 介绍 . 

< 迁移 调查 > 的 指标 项 目 共 有 62 个 之 多 ， 从 数据 处 理 方 法 角度 上 讲 ， 
这 些 指 标的 目标 量 可 分 为 两 类 : 第 一 类 是 某 个 指标 如 的 总 量 了 , 例如 迁 
入 人 口 总 数 , 迁 入 人 口中 男性 总 数 等 ; 第 二 类 是 两 个 总 量 了 与 节 的 比值 
其 ; 例如 迁 入 人 口 的 狂 别 构成 , 即 迁 入 人 口 男 ( 女 2 性 总 数 与 迁 入 人 口 总 数 
之 比 ， 其 中 二 者 人 口 数 都 需要 通过 样本 进行 入 计 . 其 他 如 平均 值 或 凡是 
在 总 人 口 Z《 亩 查 时 是 已 知 的 , 不 需要 估计 ) 中 所 占 的 比例 卫 = 了 /2 则 可 
担 为 第 一 类 人 处理。 我们 参照 < 迁移 调查 ?的 研究 报告 ( 见 参 考 资料 [1]), 选 
择 了 以 下 指标 为 主要 目标 量 , 它们 包括 了 了 (了 P)、B 这 两 类 目标 量 : 

(D 城镇 还 入 人 口 占 总 人 人口 的 比例 了; 

《2) 城镇 迁 入 人 口 的 性 别 构成 Ri 

C3) 城镇 迁 入 人 口 的 年 龄 构成 Rs 

(4 城镇 迁 入 大口 的 文化 构成 Be 

{5) 城镇 迁 入 人 口 的 迁 出 地 类 型 比重 Bss 

(6) 城镇 迁 入 人 口 的 迁 出 年 代 比 重 Rss 

(7) 城镇 迁 入 人 口 的 迁 入 原因 比重 Bs; 

〈8) 城镇 人 口 的 分 性 列 年 龄 构成 Ps 

《9) 城镇 人 口 的 年 龄 构成 P2. 

三 、 科 城镇 目标 量 的 估计 及 其 方差 估计 

< 迁移 调查 ?第 三 级 抽样 是 在 城镇 中 抽取 街道 ， 有 分 层 和 不 分 层 抽 取 
两 种 情况 、 现 锌 分 层 抽 若 介绍 计算 公式 (不 分 层 即 层 数 为 巧 。 层 内 抽样 
又 分 二 级 , 第 一 级 一 般 按 等 概率 系统 抽样 抽 街 道 , 在 上 海 采用 不 等 概率 系 
统 抽样 ， 第 二 级 按 等 概率 系统 抽样 , 也 名 等 丐 抽样 , 从 每 个 被 大 中 的 街道 
中 抽 家 庭 户 ， 对 抽 中 的 户 则 进行 整 户 调 查 ， 由 于 街道 和 户 的 排列 顺序 是 
按 地 址 编码 和 户籍 硕 序 排列 的 , 与 迁移 情况 无 关 , 也 即 与 调查 的 指标 量 不 
相关 , 故 可 看 作 是 “随机 排列 ”。 在 此 情形 , 系统 抽样 与 简单 随机 抽样 可 看 
成 是 等 价 的 , 因此 我 们 可 将 这 拌 的 系统 抽样 按 简单 随 视 抽样 公式 处 理 . 

1， 符号 介绍 

为 介绍 目标 量 的 估计 和 方差 估计 方式 , 首先 引进 车 于 记号 : 

及 ,如 j, 记 分 别 为 层 .街道 . 户 、 人 的 编号 ， 玉 。 了 ,，… 为 调查 指标 

Zui 为 天 层 第 怀 街 道 第 了 户 中 的 被 调查 人 数 ; 

wns 为 五 层 第 字 街道 抽 中 前 户 类 ; 
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因为 六 层 内 抽 中 的 街道 数 ; 型, 为 第 忆 衍 着 的 总 户 数 ; 


7a 为 大 层 内 街道 总 煞 ; 尹 : 为 天 展 第 $ 街道 的 人 数 ; 
如 为 及 层 内 总 人 数 ; 也 为 城镇 人 口 总 数 。 
2， 目标 量 的 估计 


首先 我 们 讨论 第 户 层 迷 个 指标 y 的 总 量 了 ,的 合计 ， 由 于 在 每 个 竺 
道内 的 抽 群 都 是 等 概率 的 系统 整 群 ( 户 ) 抽样 ， 正 如 前 面 所 指出 的 那样 ， 
我 们 可 用 简单 随机 抽样 的 有 关公 式 ， 对 于 刻 层 内 第 和 道 的 指标 y 的 平 
均 数 子 w 可 用 以 下 简单 估计 : 

.SY yo (11.67) 


This j=1 x= 
其 中 min 是 第 用 层 第 二 街 道 第 也 六 第 二 人 的 指标 
因此 刀 层 内 总 量 zx 可 按 以 下 公式 估计 ; 
多 -下 六 0 (11.68) 


车 层 内 抽样 是 按 街 道人 口 数 成 比例 的 不 等 概率 系统 抽样 ， 则 按照 不 
放 回 不 等 概 宣 抽样 的 吾 ervitz-'Phompson 估计 : 




















工交 ， 
他 名 此 元 元 怪 这 Mu (11.69) 
其 中 wm: 一 mm - 字 是 第 街道 被 拍 中 的 概率 ， 
获得 屋内 总 时 了 了, 的 估计 后 , 比例 PP 一 了 /2 的 信 计 即 可 随 之 得 到 : 
P= 孚 ， (11.70) 
而 两 个 量 的 比 如 一 了 /全 的 估计 则 由 下 式 给 出 : 
记 - 辫 ， . 
一 (114.71) 
其 中 锡 是 指标 2% 的 层 总 量 的 估计, 可 以 从 wri 按 公式 (11.68) 或 (11.69)》 


同样 处 理 . 
当 在 屋内 抽 中 街道 的 总 户 数 以 及 在 不 同 街道 抽 中 药 户 数 都 是 按 户 数 
比例 分 配 时 , 则 样本 是 自 加 权 的 , 此 时 目标 量 的 估 讨 可 简化 为 ; 


如 一 下 六 习习 wm C1.72) 
其 中 . 户 为 屋内 总 抽样 比 . 
一 工 总 
因而 各- 责 孕 及 加 ww/2 C11.78) 
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名 =- 守 字 导 ymw/ 守 他 vm (11..74) 
即 目标 总 量 的 估计 等 于 样本 指标 总 和 除 以 抽样 比 ; 比例 型 司 计 为 样本 总 


和 与 层 内 总 人 数 之 比 ; 比值 型 估计 为 两 个 指标 的 样本 总 和 之 比 . 
根据 分 层 抽样 公式 , 城镇 目标 总 量 的 估计 为 - 


多 一 铝 人 (11.75) 


其 中 也 是 城镇 中 划分 的 层 数 . 
比例 型 目标 基 了 及 比值 型 目标 基 BR 分 别 可 估计 为 : 


P- Wb, (14.176) 
高, 遍 ， (11.77) 


其 中 到 ,一 如 /2 是 层 权 . 

3， 售 计 重 方差 的 估计 

正如 在 第 二 段 中 记述, 我 们 采用 随机 分 组 法 对 居 计 量 的 精度 《用 方差 
表示 ) 进 行 估 计 。 我 们 首先 介绍 随机 组 的 组 成 方法 , 然后 根据 随机 组 给 出 
方差 的 估计 。 郑 在 城镇 中 不 分 层 抽 取 街 道 。 则 将 每 个 被 抽 中 的 街道 中 的 
《 设 为 思 个 ?家 庭 户 用 系统 抽 冬 方法 划分 为 5 个 随机 组 . 在 整数 1 至 3 中 ， 
抽取 一 个 随机 整数 ”,， 啥 第 一 个 祥 本 彤 划 为 第 组， 第 二 个 样本 户 为 第 
“十 1 组 , 以 此 类 推 , 直到 某 一 样本 户 为 第 5 组 ， 以 下 的 样本 户 顺 序 为 第 1 
组 , 第 2 组 , …, 第 7 组 ,…, 第 5 组 , 再 从 第 工 组 顺序 排 下 去 ， 如 果 街 道 的 
糙 本 量 和 不 是 2 的 整 异 数 ， 令 mw 一 50+g (0O 为 整数 )，. 则 余下 的 ve 一 
下 个 样本 分 别 划 为 各，m 加 组， 的 re 为 其 工 诗 互 个 整数 中 抽 
取 的 g 个 不 放 回 的 随机 整数 ， 第 个 随机 组 则 由 所 有 % 个 样本 街道 的 第 
a 组 的 家 庭 户 组 成 . 

对 于 第 a 个 随机 组 , 采用 上 述 目 标量 估计 公式 计算 茶 目 标量 9(Y, 记 
或 ER) 药 估 计 全 &， 另 邹 采 用 未 分 组 的 母 样本 按照 上 述 公式 求 得 的 8 的 
俏 讨 量 为 6, 则 6 的 方差 的 随机 分 组 合计 量 为 ; 

vO)— FE 宫 (所 一 全 > C11.78) 

若 城镇 采用 分 层 拙 取 街道 , 则 将 工 个 层 按 以 上 方法 每 导 分 为 5 组 ,对 

城镇 和 每 个 随机 组 都 进行 总 量 估计 , 有 


了- 名 全 (11.79) 
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,= 高 Pa. (11.80) 
则 目标 量 了 估计 的 方差 估计 为 : 
工 & 2 
oP)— BE 习 (人 一 缚 ) 。 (11.81) 
对 比例 型 估计 卫 , 我 们 用 下 式 信 计 Pe 及 三: 
P=P/Z, P=P/2, (11.82} 
于 是 六 CP) 可 用 下 式 估计 ， 
2 a 
oP py LD) 、 《141.83》 
比值 型 估计 尼 ， 我 们 仍 用 同样 的 估计 量 ， 
天 一人 /名 (11.84) 


这 里 参与 这 根据 ( 坟 .79) 式 计算 . 
为 了 估计 耿 ( 在 ), 我 们 利用 泰勒 级 数 , 可 以 得 到 (下) 的 以 下 近似 公 
式 : 





V0) -tr  2003 2)], 


它 的 一 个 舍 计 是 ， 
pef oF) ov) _ v0) oF) vol) 
Geka p+ Se J] (11.85> 





其 中 wo( 多 ) 及 wo( 全 ) 用 (1.81) 式 计算 , 而 2(D) 则 对 新 指标 如, 即 ws 一 
ss 十 oo 用 公式 (于 .81) 式 计算 而 得 . 

在 求 得 34 城镇 皮 标 量 估计 和 方差 估计 之 后 , 我 们 按照 前 述 的 分 层 方 
法 ， 用 分 以 抽 样 公式 得 到 目标 总 体 74 城镇 主要 目标 量 的 估计 和 方差 个: 
计 . 

四 、 全 国 及 各 种 规模 城市 和 镇 人 口 迁 移 指标 的 推算 

全 国 及 各 种 规模 城镇 目标 量 的 估计 是 通过 计算 了 Y4 城镇 的 目标 量 
估计 之 后 , 对 它们 进行 事后 分 层 ” 用 分 层 抽样 公式 求 得 的 。 为 此 , 我 们 需 
对 全 国 城镇 分 请 ， 并 需 已 知 各 层 中 的 城市 和 居住 在 这 些 城市 地 区 的 层 人 
口 数 . 将 全 国 城镇 分 层 欧 原则 必须 与 74 城镇 分 层 原则 一 致 . 因为 居住 在 
城市 地 区 的 人 口 包括 了 城市 中 绝 大 部 分 的 非 农 业 人 口 ， 所 以 在 对 全 国 城 
市 按 规 模 分 层 峙 , 我 们 使 用 公安 部 所 编 1986 年 度 全 国 分 县 市 人 口 统计 资 
笠 ( 见 参考 资料 [种 ) 中 市 非 农业 人 口 一 览 表 ， 在 确定 茶 规模 层 的 城市 时 ， 
从 大 到 小 取 到 在 本 规模 层 中 被 调查 城市 是 非 农 业 人 已 最 少 的 城市 为 止 。 
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比如 全 国 的 大 城市 , 我 们 从 福州 市 取 到 株洲 市 , 全 国 的 中 等 城市 愉 双 芍 山 
市 取 到 废 庆 市 ， 也 因为 居住 在 城市 地 区 的 人 书包 括 了 城市 中 绝 大 多数 的 
非 农 业 人 口 ,所 以 我 们 以 答 城市 的 调查 范围 人 口 与 城市 中 非 农业 人 口 的 
上 比例 为 权 数 ,来 计算 各 层 居住 在 城市 地 区 的 人 口 数 . 经 分 层 加 权 计 算得 
推论 总 体 全 国 居住 在 城市 地 区 的 总 人 口 为 14.963 千 万 人 ， 镇 的 调查 荡 
围 与 它 的 总 人 口 一 致 为 20.37 千 万 人 . 

据 统 计 ，1986 年 全 国 城市 总 人 口 为 3 亿 3 千 万 人 ， 非 农业 人 口 为 1 
亿 2 千 万 人 ,由 < 迁移 调查 > 推算 的 全 国 居 往 在 城市 地 区 的 人 人 口 为 1 亿 5 
千 万 人 . 那么 居住 在 全 国 城市 地 区 的 农业 与 非 农业 人 口 的 比例 约 为 1:d， 
我 同城 市 中 农业 与 非 农业 人 口 比例 的 变化 与 城市 建制 原则 和 城乡 划分 标 
淮 的 变动 有 关 .< 迁移 调 查 ? 的 调查 范围 是 在 城市 地 区 的 实际 人 口 , 在 一 定 
时 期 内 其 农业 与 非 农业 人 口 的 比例 是 相对 稳定 的 ， 因 此 由 迁移 调查 > 所 
推算 的 全 贸 城 市 地 区 一 亿 五 千 万 人 的 人 口 数 在 一 定 程度 上 反映 了 中 国 城 
市 化 蕴 实 际 水 乎 (考虑 到 一 些 特大 城市 没有 调查 郊区 , 城市 化 真实 水 平 农 
业 人 口 的 比例 要 赂 高 些 ). 

全 国 各 屋 目 标量 的 估计 由 层 肉 抽 中 城镇 区 目 标量 估计 值 按 居 住 在 城 
镇 地 区 人 品 数 加 权 求 得 : 


8 之 =- 立 条 2 (11.86) 
误 祈 娶 


其 中 ，@ 为 屋内 抽 中 城市 数 ; 
4 为 屋内 抽 中 第 a 个 城市 居住 在 城市 地 区 的 人 口 ; 
如 为 层 内 居住 在 城市 地 区 的 总 人 口 .， 
全 国 各 地 区 及 各 种 规模 城镇 主要 人 口 迁 移 指 标的 推算 由 各 层 目 标量 
估计 按 分 野 抽 样 公式 求 得 (以 下 略 ). 
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评注 
1) 本 案例 的 调查 事先 未 经 过 严格 的 抽样 设计 , 前 两 级 ( 阶 ) 朱 样 是 非 
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随机 的 , 其 至 是 人 为 的 ， 但 “挑选 "出 来 进行 调查 的 94 个 城镇 在 地 理 上 和 分 
齐 还 是 比较 均匀 的 , 从 而 对 全 国 仍 有 一 定 的 代表 性 、 第 三 .四 级 轴 样 则 共 
本 二 还 是 严格 的, 尽管 对 每 个 城镇 并 不 采用 同样 的 方法 , 严格 地 说 ， 本 调 
查 上 只 对 所 调查 的 74 个 城镇 即 文中 所 说 的 “目标 总 体 ” 有 意义 , 而 对 全 国 城 
第 《人 口 ) 即 文中 的 “推论 总 体 " 只 有 参考 意义 ， 

2) 本 案例 设计 时 未 考虑 到 对 总 体 肯 标量 的 估计 ， 更 谈 不 上 精度 佑 
计 、 参 考 资 料 [1] 中 列 出 并 进行 讨论 的 只 是 样本 汇总 资料 ， 这 种 情况 在 
前 几 年 全 国 性 大 型 调查 中 并 不 少见 ， 在 今天 许多 报刊 上 发 表 的 市 场 调查 
或 公众 调查 更 是 常见 的 。 站 果 样 本 是 自 加 权 航 《 造 生 的 是 在 这 类 调查 中 
这 极为 少见)， 样 本 比例 或 平均 数 才 可 作为 总 体 相应 目标 量 的 (无尽) 估 
计 ， 否则 , 样本 慎 必 定 与 总 体 目标 量 之 间 窒 在 或 多 或 少 的 偏 倚 。， 因 此 , 根 
据 样本 资料 必须 进行 推 总 估计 ， 这 应 该 引起 每 项 抽样 调查 主持 或 决策 者 
所 重视 的 . 

3) 作为 补救 措施 , 本 例 用 随机 分 组 法 将 样本 分 成 若干 随机 组 ( 子 样 
本 )， 分 组 方法 是 使 子 样 本 的 结构 与 原 母 样本 一 致 ， 用 一 种 确定 的 方法 
来 入 计 每 个 子 样 本 的 (对 总 体 目 标量 ) 信 计 , 再 求 其 平均 值 作为 严 式 估计 ， 
最 后 用 (41.78) 式 来 计算 该 信 计 量 的 方差 。 当然 随 机 组 法 的 效率 不 够 高 ， 
所 得 估计 量 指 方差 估计 不 够 精确 .， 但 优点 是 计算 并 不 复杂 ， 若 需 进 一 步 
提高 效率 ， 还 可 使 用 第 9 章 中 介绍 的 其 他 方法 ， 例 如 平衡 半 样 本 方法 、 
Jackknife 方法 或 Bootstrap 方法 来 佑 计 方差 , 当然， 这 天 要 以 付出 更 大 
的 计算 量 为 代价 . 
































$11.8 中 国 妇女 社会 地 位 调查 ” 


一 、 调 查 方 案 
+， 调查 月 的 

中 国 妇 妇 社 会 地 位 调查 的 目的 有 也: 第 一 , 容 观 .准确 、 系 统 地 找 述 中 
国 妇女 社会 地 位 的 现状 与 发 展 ; 第 二 , 分 析 研 究 妇女 社会 地 位 变迁 的 规律 
和 影响 因素 ; 第 三 , 进行 省 际 及 不 局 层次 妇女 地 位 比较 , 并 在 可 能 的 情况 
下 进行 国际 比较 ; 第 四 , 总 结 、 镁 选 评 价 妇 女 社 会 地 位 的 综合 评价 指标 , 以 
交 本 顶 目 由 中 华 全 国 妇女 联合 会 与 国家 统计 局 联合 主持 ,环节 正文 摘 远 白 隐 者 芳 、 菠 永 祥 
主编 的 < 中 国 妇 妇 社会 地 位 概观 ?第 一 音 研 究 方法 ， 中 国 妇女 出 版 社 , 1998, 该 章 原 文革 

务 永 荐 、 前 忠 兵 、 祈 李 执 笔 . 其 中 抽样 是 由 胡 忠 兵 设计 的 。 























革 11.5 中国 妇 廊 社 会 地 位 调查 271 


便 法 行 长 期 监测 . 
围绕 研究 目的 , 本 项 目的 研究 设计 遵循 以 下 原则 : 
(DD 以 男性 为 参照 系 , 同 男性 比较 ， 进 行 跨 有 阶层 、 跨 地 域 、 跨 职业 的 
考察 妇 妈 地 位 是 相对 于 男性 而 言 的 ， 没 有 男性 地 位 世 就 无 所 谓 女 性 地 
位 的 探讨 . 

(2) 考察 妇女 的 总 体 地 位 ， 而 不 是 单个 人 的 特殊 状态 ， 即 妇 女 地 位 
欧 研 究 是 就 整体 面 言 的 . 

人 以 当代 妇 妇 地 位 为 主 , 同时 为 说 明 发 展 , 还 要 以 女性 自身 的 过 去 
为 参照 系 , 巩 不 同年 代 妇 女 地 位 的 比较 . 

(4) 考察 中 国 妇女 社会 地 位 , 为 此 在 研究 方法 .指标 设计 上 要 体现 中 
国 特 色 , 同时 为 取得 国际 社会 交 周 一 认识 及 相互 比较 的 需要 , 也 注意 借鉴 
冒 外 妇女 研究 方法 和 指标 . 

2. 调查 内 容 .指标 

中 国 妇 女 社 会 地 位 调查 的 指标 体系 依据 我 国 社会 经 济 发 展现 状 ， 参 
照 联合 国 及 亚太 地 区 监测 妇女 地 位 的 指标 设置 . 它 包括 以 下 八方 面 内 容 - 
(四 法 律 权利 ，(2) 生育 与 健康 ，(3) 教育 (的 劳动 就 业 (5) 社会 参与 
与 政治 参与 ，(6) 婚姻 家 庭 ; (7)》 身 我 认 知 与 社会 认 商 ，(8) 生活 方式 . 各 
项 肉 容 前 主要 指标 具 略 . 

3. 调查 方法 及 调查 表 

中 国 妇女 社会 地 位 调查 主要 采取 三 种 方法 ， 个 人 问卷 油 查 ， 社 区 及 
企 事 业 单位 直接 统计 调查 ; 统计 文献 调查 . 

《bb 个 人 问卷 调查 ， 即 “中 轩 妇 女 社 会 地 位 调查 个 何 卷 ”， 此 调查 
表 采 用 调查 员 入 户 访谈 方 法 ， 内 容 包 括 中 国 妇 女 社会 地 位 调查 的 备 个 方 
而 , 虽 的 是 站 18~64 岁 男 女 公民 的 亲身 经 历 、 行 为 观念、 体会 中 了 解 中 
国 妇女 社会 地 位 各 个 层面 的 所 史 与 现状 ， 个 人 调查 问卷 是 中 国 妇 女 社会 
地 位 调查 的 主 调查 设 , 调查 标准 时 点 为 1990 年 9 月 15 日 . 

(2) 社区 及 企 事业 单位 直接 统计 调查 ， 所 请 直接 统计 调查 ， 是 指 调 
查 员 深入 到 被 调查 单位 , 使 用 调查 家 向 有 关 部 门 搜 集 数 据 . 了 解 情况 的 方 
法 , 其 特点 是 把 一 个 组 织 或 社 芝 作为 研究 对 象 ， 从 而 把 握 整 体 的 结构 , 性 
质 , 以 作为 个 人 问卷 调查 的 背景 资料 、 补 充 资料 和 校 验资 料 。 本 次 调查 采 
用 直接 统计 调查 的 调查 表 有 5 种 

四 村 民 委 员 会 调查 表 , 重点 了 解 农 村 整 群 妇女 人 口 教育 ,劳动 等 情 
襄 。 
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名 @ 工业 企业 调查 表 ， 重 点 了 解 城镇 工业 企业 整 群 妇女 的 职业 分 布 、 
劳动 保护 、 劳 动 报 酬劳 动 效率 等 情况 . 

加 高 等 院 校 调查 表 , 重点 了 解 分 学 科 男 女 毕 业 生 情况 . 

加 产 院 、 福 利 院 调 查 表 , 重点 了 解 被 遗弃 女儿 童 少年 的 情况 . 

加 县 以 上 机 关 团 体育 查 表 ， 重点 了 解 妇女 的 社会 参与 . 法律 权 和 刹 等 
情况 . 

《3) 统计 文献 调查 ， 所 谓 统 计 文献 调查 ， 是 指 利用 有 关 部 门 的 现成 
统计 文献 而 进行 的 汇 益 统 计 调 查 .， 本 次 调查 使 用 的 统计 文献 调查 表 依 据 
轴 家 统计 局 以 及 劳动 人 事 、 教 育 .司法 .卫生 、 计 划 生 育 等 部 门 的 现 有 统计 
资料 编制 。 其 自 的 是 从 现 有 网 统计 资料 中 获取 与 妇 友 地 位 有 关 的 各 种 信 
息 ， 把 握 影 响 妇女 社会 地 位 变化 的 宏 跑 背景 和 中 国 妇 信 社 会 地 位 发 展 的 
历史 脉络 与 总 体 概 况 . 

4. 调查 的 组 织 实 施 

中 国 妇女 社 会 地 位 调查 是 在 全 国 妇 联 和 国家 统计 局 的 领导 下 ， 由 全 
田 妇 联 妇 去 研究 所 和 国家 统计 局 社会 司 具体 组 织 实 施 和 的 ， 调 查 的 研究 设 
计 等 前 期 准备 、 全 国 性 调查 的 组 织 实 施 . 数据 汇总 和 国家 级 报告 的 撰写 ， 
出 全 国 妇联 妇女 研究 所 < 中 国 妇女 社会 地 位 调查 > 课题 组 在 国家 统计 局 社 
会 司 有 关 同 志 协 助 下 完成 的 。 各 样本 省 、 直 辖 市 ,自治 区 子 课题 组 负责 本 
省 .直辖 市 .自治 区 调查 工作 的 组 织 实 施 和 地 区 性 报告 的 扔 写 ， ， 

调查 员 : 本 调查 全 部 调查 员 由 妇联 系统 干部 担任 , 23 个 省 .直辖 市 、 
自治 区 共 投 入 调查 员 2000 余人 . 为 确保 调查 质量 , 疏通 工作 环节 , 在 各 样 
本 号 .市 聘任 了 调查 指导 员 . 调查 员 的 培训 分 两 级 进行 ，< 中 国 妇女 社会 
地 位 调查 ?课题 组 负责 培训 各 省 直辖 市 .自治 区 的 调查 研究 人 员 。 各 省 、 
直辖 市 .自治 区 的 全 部 调查 员 和 调查 指导 员 由 省 、 直 辖 市 、 自治 区 子 课 题 
组 负责 . 

试点 ， 为 保证 调查 用 表 的 可 操作 性 , 正式 调查 前 ,组 织 了 两 次 试点 ， 
第 一 次 为 1989 年 9 月 在 内 蒙古 包头 市 ， 第 二 次 为 1990 年 8 月 在 北京 市 
怀柔 县 ， 试 调查 中 发 现 的 问题 经 专家 及 本 课题 研究 人 员 反 复 讨论 修改 后 
定稿 . 

质量 检验 : 质量 是 调查 的 生命 ， 为 确保 质量 , 减少 调查 误差 , 本 调查 
建立 了 严格 的 质量 检验 制度 . 间 卷 的 质量 检验 的 内 容 包 括 回收 率 、 可 信 
度 、 有 有 效 性 、 抽 祥 四 个 方面 , 并 分 四 级 进行 : 人 调查 员 自 检 ， 加 市 县 调查 
指导 员 对 报 送 的 各 式 调查 员 进 行 盲 分 之 百 的 复核 与 检验 ， 发 现 差错 和 泥 
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填 , 退回 调查 员 回 访 查 实 。 图 各 省 、 直辖 市 、 自 治 区 抽验 全 部 调查 问卷 、 
表 的 20 多 【实施 中 很 多 省 检验 比例 达 100 多 )， 团 全 国 雪 联 妇女 研究 所 
课题 组 于 1991 年 工 月 对 北京 等 41 个 省 、 直 辖 市 回收 的 各 式 调 查 表 进 行 
了 3 多 的 抽验 . 

数据 录入 整理 : 中 国 妇 玄 社 会 地 位 调查 个 人 调查 问卷 的 数据 处 理 采 
取 统 一 标准 ,分 级 录入 , 两 级 汇总 分 析 的 方法 ， 个 人 问卷 原始 数据 的 计算 
机 录入 由 各 省 按 全 国 统一 编 揣 的 录入 程序 分 别 完成 ， 数 据 的 汇总 分 析出 
全 国 和 各 省 使 用 SP9S 统计 分 析 软 件 同 时 进行 . 其 他 各 式 调查 表 由 全 国 
和 各 省 分 头 录入 并 分 析 ， 数 据 录 入 后 ， 本 课题 研究 人 员 除 按 逻 辑 关 系 对 
全 部 数据 进行 机 械 清 理 外 ， 还 抽验 .清理 了 部 分 数据 的 所 有 记录 ， 以 消除 
由 于 录入 等 前 期 工作 造成 的 差错 . 

二 、 灿 料 方法 及 抽样 结果 评估 

1.。 抽样 方法 

本 次 调查 个 人 间 卷 样本 所 推断 的 总 体 定义 为 ， 调 查 标准 时 点 上 所 有 
参与 调查 的 省 自治 区 和 直辖 市 居住 在 家 庭 户 内 18 岁 及 以 上 , 64 岁 及 以 
下 人 金 体 男女 公民 . 抽 选 样本 时 , 以 家 庭 户 司 为 基本 扫 样 单位 , 在 每 个 样本 
户 内 8 周岁 至 人 64 周岁 的 两 性 人 口中 ， 按 特定 随机 程序 手 选 出 一 人 做 为 
调查 对 象 , 

为 了 使 样本 不 但 对 整个 研究 总 体 进行 推断 ， 同 时 也 能 分 别 对 每 个 参 
与 调查 的 省 级 子 总 坷 进行 独立 推断 , 并 进行 省 际 比 较 , 本 次 调查 以 省 做 为 
研究 域 , 每 省 抽取 相等 规模 的 样本 . 

抽样 组 织 形式 为 , 在 各 省 内 使 用 统一 的 分 域 .分 层 . 多 阶段 . 硫 率 比例 
《PPS). 随 视 等 距 的 抽样 方式 . 

由 于 我 国 城乡 差异 大 ,上 且 农 业 人 口 所 占 的 比重 高 , 对 妇女 地 位 而 言 ， 
农村 的 同 质 性 天 于 城市 ， 从 调查 费用 及 难度 来 看 ， 农 村 又 明显 高 于 城市 . 
为 了 能 分 析 比 较 城 乡 差别 ， 提 高 抽样 精度 ， 并 能 保证 城市 分 析 具 有 足够 
的 样本 量 ， 省 内 进一步 按 城乡 分 堪 ( 实 际 上 是 作为 研究 域 的 层 )， 这 里 的 
城乡 分 域 是 按 非 农业 或 农业 户口 划分 的 . 城市 域 主要 指 非 农业 人 口 ， 包 
括 城市 非 农业 人 口 以 及 县 镇 非 农 亚 人 口 ; 农村 域 则 不 仅 包括 县 属 农 村 的 
农业 人 口 ， 还 包括 减 市 所 属 和 城市 辖区 的 农业 人 口 . 各 省 城乡 西域 的 样 
本 规模 相等 , 据 此 沿 省 级 测算 时 , 要 求 对 数据 结果 进行 加 权 处 理 . 

样本 量 采用 保守 的 方法 确定 。 要求 在 各 省 内 城市 域 或 农村 域 中 能 分 
别 以 95% 的 可 信 度 保证 百分比 的 绝对 误差 不 超过 5%， 因 此 省 内 分 域 的 
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简单 随 视 抽样 的 平均 祥 本 量 为 : 
oD 
取 p 一 0.5, i 一 4.96, 8 一 0.05, 则 可 得 到 对 mne 的 保守 估计 : mo 一 385. 
求 得 简单 随机 抽样 的 样本 容量 后 , 用 设计 效应 进行 调整 , 从 而 得 出 复 
杂 抽 样 设计 所 需 的 样本 量 . 按照 经 验 ， 类 似 抽样 的 设计 效应 deft 反 2, 为 
保险 起见 , 设 ge 全 一 2.5， 从 而 省 内 分 域 的 祥 本 景 为 : 
部 "一 deff xrw= 2.5x 385= 963. 


攻取 一 4000 为 省 内 分 域 的 样本 量 。 

鉴于 以 上 各 步 推导 都 是 保守 的 ， 因 而 由 请 查 结果 所 计算 的 精确 度 会 
更 高 ， 戎 着 样本 天 的 增加 , 作 省 级 分 析 与 作 全 国 分 析 对 精确 度 还 会 高 . 

为 了 降低 手 样 误差 , 提高 抽样 精度 , 在 各 省 内 还 按 城 乡 分 域 对 初级 抽 
样 单位 进行 分 层 ， 分 层 按 地 理 、 经 济 及 人 口 规模 等 进行 , 以 营 同 一 层 内 的 
初级 抽样 单位 具有 尽 可 能 高 的 同 质 性 .其 中 城市 域 按 规模 大 小 及 历史 状 
况 分 为 三 层 : 大 型 城市 (50 万 人 口 以 上 )、 中 小 型 城市 (50 万 人 口 以 下 的 非 
新 建 市 , 即 1987 年 以 前 建制 的 城市 )、 新 建 县 级 市 和 县 .农村 按 地 理 条 性 
分 为 三 层 ， 丘 胰 县 (或 城市 辖区 ). 册 区 县 (或 城市 连 区 )、 平原 县 (或 城市 
辖区 )。 这 里 的 县 包括 新 建 其 级 市 . 为 避免 过 多 的 加 权 计 算 ， 使 用 与 规 
蓝天 小 成 比例 的 概率 盾 选 各 级 抽样 单位 ， 域 内 各 层 中 样本 量 的 分 配 也 与 
层 的 规模 天 小 成 比例 ， 即 在 各 层 中 使 用 祖 辣 的 打样 雍 :， 了 城 层 = 了 城 域 ， 
了 乡 层 ~f 乡 域 , 

对 参与 调查 的 各 省 , 党 采用 四 个 阶段 抽样 : 

第 一 阶段 : 各 省 内 分 城乡 域 均 以 县 市 作为 初级 抽样 单位 (对 自 代 表 
单位 , 将 其 挑 出 , 单独 为 层 , 并 按 相 同 的 扫 样 比分 配 应 抽样 本 数 ), 经 权衡 ， 
在 各 个 域 共 抽 35 个 初级 抽样 单位 , 全 省 共 50 个 初级 抽样 单位 , 其 一 半 属 
城市 域 , 一半 属 农村 域 。 抽 选 方法 是 先 将 省 内 分 域 对 所 有 初级 抽样 单位 
分 层 , 然后 在 同一 域内 以 相同 的 抽样 比 计 算出 各 层 应 抽样 本 户 数 , 再 以 此 
数 除 以 4 如 (每 个 初级 铀 样 单位 内 平 欧 应 揣 户 数 )， 得 出 各 层 内 应 抽 的 初级 
抽样 单位 数 。 同 一 域内 各 层 的 初级 抽 术 单位 数 之 和 应 为 25, 全 省 的 初级 
抽样 单位 数 之 和 为 50- 最 后 在 各 娠 内 ， 以 概率 比例 方法 抽出 所 需 数 目的 
初级 抽样 单位 、 

第 二 阶段 ， 在 每 个 样本 市 .县 内 , 用 概率 比例 方法 抽 选 经 计算 后 确定 
数目 的 街道 (或 乡 )、 一 般 一 个 初级 抽样 单位 抽 工 个 街道 (或 2 个 乡 )， 个 
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别 规模 大 的 初级 抽样 单位 可 能 不 上 上 扫 这 个 数 ( 这 里 特 指 将 自 代表 单位 单 
独 挑 出 作 层 并 以 相同 的 狂 样 比分 配 样 本 数目 药 情 况 )。 由 于 初级 抽样 单 
位 按 城乡 分 域 交叉 ,所 以 有 些 市 .县 的 可 能 街道 或 乡 都 要 牛 ， 有 些 则 只 抽 
其 一 . 

第 三 阶段 ， 在 每 个 街道 (或 乡 ) 内 , 用 概率 比例 方法 抽 选 出 2 个 居 ( 或 
村 ) 民 委员 会 . 

第 四 阶段 ， 在 每 个 样本 居 ( 或 村 ) 委 会 内 ， 根 据 第 四 阶段 抽样 比 和 调 
查 时 点 上 的 实际 户 数 ， 计 算出 应 抽 户 数 . 将 居 ( 或 灶 ) 委 会 内 所 有 家 庭 户 
列表, 按 简 单 随机 (或 等 距 ) 抽 样 方法 抽出 样本 产 . 每 个 居 ( 或 村 ) 委 会 平 
均 应 铀 2 人 或 如 户 )，、 这样 做 是 为 了 提高 抽样 精度 ， 考 虑 到 泸 市 域 中 导 
委 会 内 样本 的 异 质 性 大 于 农村 域 中 村 委 会 内 样本 的 异 质 性 ， 而 且 居 委 会 
区 规模 有 很 多 都 大 于 村 委 会 的 规模 等 因素 。 

这 祥 , 每 个 域 的 计划 样本 量 为 四 个 阶段 抽样 单位 数 的 苹 积 ， 

农村 域 : 25x2x2x10=1000( 户 ). 

城市 域 ，25x1x2x20=1000( 户 ). 

全 省 总 的 样本 量 为 城乡 两 域 之 和 

4000 二 1000 一 2000{ 户 ), 


域内 总 的 抽样 比 为 各 阶段 抽样 比 的 乘积 ， 
Mosa 5bM » Mosa Ey 
/= SMe 和 ee 闪 全 * om 
其 中 ，o 一 25 为 第 一 阶段 抽 拌 单位 数 ; 
8 一 1《( 或 2) 为 第 一 阶段 样本 单位 内 平均 负 出 的 第 二 阶 跋 样本 单 
位 数 ; 
6 一 2 ”为 第 二 阶段 祥 本 单位 内 平均 抽出 的 第 三 阶段 样本 单位 数 ; 
9 为 每 个 居 (或 村 ) 委 会 内 计划 抽 选 的 户 数 ，G* (城市 域 1= 20， 
《农村 域 ) 一 10; 
Mos。 为 分 域 抽 样 框 上 市 .县 户 数 ， 
Mosus 为 分 城 贡 样 杠 上 街道 (或 乡 ) 户 数 
Mosway ”为 分 域 抽样 丁 上 居 ( 或 村 ) 委 会 户 数 . 
使 用 往 率 比例 方法 时 ， 如果 最 后 脐 段 抽 祥 框 上 的 居 ( 或 村 ) 委 会 户 数 
与 调查 时 点 上 的 实际 户 数 不 符 , 则 应 抽 户 数 为 ， 
B= Noagy X fa= Nagy 


























gr 
x 一 
Mosuey ” 
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其 中 ，f 一 0*/Mosasy 为 第 四 阶段 抽样 比 ; 
Wasy 为 调查 标准 时 点 上 居 ( 或 村 ) 委 会 的 实际 户 数 . 

车 最 后 阶段 使 用 随机 起 点 的 等 距 抽样 ， 只 要 使 用 抽样 间隔 ;5 一 41 
进行 等 距 抽 样 , 则 实际 抽出 的 户 数 就 符合 上 式 要 求 ， 

为 了 使 从 家 庭 户 中 抽出 的 被 调查 人 喷 组 成 的 拌 本 在 年 具 、 性 别 等 方 
面 的 分 布 与 总 体 分 布 尽 可 能 一 致 ， 采 用 下 述 特点 的 抽 祥 方式 进行 户 内 抽 
人 ( 见 leslie kish， «Survey SBampling?>)。 这 一 抽样 程序 的 关键 在 于 写 
出 序号 , 并 作 选 择 。 序 号 的 排 法 是 男性 在 前 .女性 在 后 . 男 姓 中 以 最 年 长 
的 排 在 第 一 位 , 次 年 长 的 排 在 第 二 位 , 以 此 类 推 ， 女 性 的 最 长 者 排 在 男性 
的 最 幼 者 后 面 , 你 下 的 排列 与 男性 相同 . 按 这 种 排列 顺序 作 序号 , 如 工 , 2， 
3, 4 等 , 壤 入 序号 栏 内 ， 调 查 员 根 据 手 持 的 “x 式 选 择 表 ”, 按照 家 庭 户 的 
人 人数 多 少 作 选择 . 

选择 表 的 烙 式 共有 44、 BJ、Bo、 O、 也 加 1、 百 s、F 八 种 , 分别 占 总 调 
查 表 中 14/6、 1/12、 1/12、 1/6、1/6、1/12、1/12、1/6， 泛 具体 形式 分 别 
如 表 其 .10 所 示 . 








表 1. 井 
过 交 择 志 Br 式 迄 择 胡 

如 果 家 庭 户 中 18 岁 | 如 果 家 庭 户 中 18 岁 | ， ， - 

至 G4 岁 人 人口 数 为 | 被 摘 计 人 的 序号 为 至 蚂 岁 人 口 数 汐 | 被 质 近 人 的 序号 为 








六 式 选 么 志 








各 果 家 许 户 中 18 岁 | sg 如果 家 庭 户 中 18 岁 、 — 
于 64 岁 信 口 数 为 [ 被 朱 选 人 的 序号 为 至 隆 岁 人 口 数 法 | 六 直选 人 的 序号 为 
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卫 式 累 择 才 EPE 





如 果 家 庭 户 中 18 岁 | ，，， 
至 拭 岁 人 口 数 为 “| 被 热 进入 的 序号 为 


如 果 家 庭 户 中 18 岁 | ，， ， ; 
至 64 岁 人 口 数 为 后 挡 选 人 的 序号 为 








也 
3 
4 














WV; 式 选 标示 妈 式 选择 表 
如 果 家 庭 户 中 18 岁 | ，，， a 如 果 家 庭 户 中 18 岁 罕 为 
五 时 岁 人 口 数 为 镍 抽 选 人 的 序号 为 萤 64 岁 从 口 数 为 谱 抽 选 入 的 序号 | 





wo 
已 


名 名 由 四 由 上 
四 


5 或 以 上 6 或 以 上 


抽 选 时 ， 如 果 户 内 18 至 蚂 周岁 的 人 口 数 大 于 6, 册 按 选择 表 ， 若 中 
选 人 的 序号 为 1, 则 加 选 序 导 为 7 的 家 庭 成 员 ， 车 中 选 人 的 序号 为 3, 则 
加 选 序号 为 8 的 家 庭 成 员 ， 以 此 类 推 。 当 加 选 的 序号 大 于 户 内 被 排序 的 
入 口 数 时 , 只 选择 吉 中 给 定 航 一 人 调查 邑 可 . 

按 这 种 户 内 执 人 法 拍 选 被 润 查 者, 当 祥 本 量 足 够 大 时 , 样本 在 年 龄 及 
手 别 方面 的 分 布 将 与 总 体 分 布 一 致 , 

根据 部 述 芍 抽样 方式 进行 抽样 , 总 体 均值 的 信 计 形式 为 ， 

省 内 分 域 : 由 于 PPS 撼 样 估计 总 体 均 公 具有 自行 加 祝 的 特点 ,因而 
省 内 分 域 和 前 总 体 均值 的 无 偏 入 计量 就 是 样本 均值 . 

各 省 均值 的 估计 因为 各 省 内 将 城乡 分 别 作 为 是 研究 域 的 层 , 且 各 
层 内 的 抽样 比 不 局， 但 所 抽取 的 樟 本 量 相 问 ， 因 而 各 省 均值 的 无 信 估 计 
为 ， 





ye— WYst Wud, 
其 中 , 厂 w 与 酚 * 分 别 为 省 内 非 农 业 人 已 与 农业 人 口 所 占 的 比 钢 。3s 与 
yw 为 分 城 的 样本 均值 . 
全 国 均值 的 估计 : 首先 ， 依 据 社会 经 济 地 理 特征 将 全 国 29 个 省 . 自 
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治 区 ,直辖 区 (海南 仍 归 为 广东 ) 分 为 沿海 省 市 、 内 地 省 份 、 边远 省 多 三 大 
层 ， 又 依据 人 均 国 民 收 入 与 平均 受 教 育 年 腿 两 项 指标 综合 加 权 平 均 为 社 
会 经 济 发 展 相对 指数 , 收 出 层 内 分 层 标志 , 将 每 层 分 为 两 个 小 层 . 从 中 报 
选 出 1 个 省 .直辖 市 做 为 推断 全 国 的 样本 省 .这 11 个 省 .市 为 : 北京 、 江 
苏 . 河 北 .广东 吉林、 湖北 .安徽 .江西 .青海 、 甘肃、 贵 判 。 由 这 些 省 的 数 
据 推断 全 国 时 亦 应 作 适 当 如 权 处 理 ， 

Ys 一 对 Wi 

这 里 的 到 由 层 规 模 大 小 及 样本 省 规模 大 小 共 司 决定 (具体 数值 见 
第 三 段 )， 这 一 佑 计量 也 是 无 僵 的 . 

2. 抽样 误差 与 统计 推断 

抽样 调查 的 目的 是 通过 样本 统计 量 来 估计 总 体 参 数 ， 谋 差 是 指 样本 
统计 申 与 未 知 总 体 参数 之 间 的 差异 。 产生 误差 的 原因 主要 有 三 种 ， 即 登 
记 误 差 . 系 统 误 差 与 随机 误差 . 从 理论 上 讲 , 前 两 种 误差 都 是 可 以 克服 的 ， 
但 只 要 是 用 样本 来 代表 总 体 ， 随 机 误差 就 一 定 存在 ， 因为 兰 机 误 益 是 击 
于 抽样 时 的 各 种 随机 因素 造成 的 ， 是 用 部 分 来 代表 全 体 所 必然 产生 的 误 
差 ， 随 机 谋 凑 又 分 为 搬 样 实际 误差 和 抽样 平均 误差 。 抽样 实际 误差 是 指 
实际 朱 出 一 个 样本 后 ， 桩 本 统计 量 与 对 库 总 体 参 数 之 间 的 随机 误差 . 外 
样 平均 误差 是 所 有 可 能 出 现 的 桩 本 统计 县 与 对 应 的 总 体 参 数 之 间 的 平均 
误差 程度 ， 从 同一 总 体 中 抽取 的 单位 数 相 同 的 所 有 样本 都 具有 了 订 一 个 所 
祥 平 均 误 差 , 简称 拍 样 误差 , 也 就 是 统计 量 贺 样 分 布 的 标准 差 ， 在 无 俩 的 
情况 下 ， 抽 样 误差 反 呈 的 是 祥 本 统计 量 的 波动 答 度 ， 即 抽样 的 精确 程度 ， 
因而 抽样 误差 越 小 , 抽样 的 精度 也 就 越 高 , 

就 本 次 调查 而 言 ， 考 疹 样 本 对 总 体 的 代表 性 也 从 抽样 实际 误差 及 扫 
样 误差 这 两 方面 进行 、 本 次 调查 的 基本 抽样 单位 是 家 庭 户 ， 被 调查 者 是 
从 家 庭 户 中 按 特 定 的 随机 程序 抽 选 的 , 祥 本 的 年 龄 . 住 别 分 布 只 与 户 内 挡 
人 的 程序 有 关 , 与 抽 选 样本 家 庭 户 的 抽样 方法 无 关 ， 除 年 龄 、 性别 外 ， 其 
它 变量 的 所 样 误差 都 直接 取决 于 样本 家 庭 户 的 扫 选 办 法 , 

对 总 体 参 数 已 知 的 部 分 变量 ， 我 们 直接 将 全 国 数据 样本 值 与 总 体 值 
《1990 年 第 四 次 人 口 普查 数据 ) 进 行 比 较 ， 各 项 抽样 实际 误差 如 表 其 .11 
所 示 . 

从 表 二 .11 可 以 淖 出 : 在 有 关 总 体 基 本 情况 的 变量 上 ， 抽样 实际 误差 
有 大 有 小 , 但 总 的 来 说 , 样本 分 布 的 趋势 与 总 体 趋 势 - 一 致 
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表 1 
性 ” 刚 境 本 比例 总 体 比 例 抽样 实际 误差 
田 52.1%6 5 工 ,785 0.8% 
去 47,986 | 48.22% D.396 
年 龄 | 伴 本 此 习 总 体 比 饥 邱 评 实际 误差 
18~d9 岁 4-.896 6-.50% 工 .798 
20~24 岁 12.6%% 17.6%% 5.09% 
25~29 岁 16.6% 17.4% 0.896 
23034 岁 13.8% 10.5% 3.390 
35~39 岁 ! 16.99%% 1 人 3.98 4.056 
4d0~44 岁 | 11-9% | 3-895 EE 
45~49 究 7.2% 7.39%6 0.1% 
50~~54 岁 6.4% 6.59%6 站 .3 入 
9 岁 5.496 6.296 O86 
60~~64 宏 4.4B6 5.390 .9 人 
文化 程度 样本 比例 总 体 比如 抽样 窦 际 误差 
不 识字 或 识字 很 少 20.0%% | 20.696 | 0.656 
小 学 33.59% 42.3 色 .89 
初 申 29.89% 26.5% | 3.39%6 
高 中 11.9% ?7.396 4.596 
中 直 2.6% 1.7%6 90.9% 
交 专 | I.5% | I.0% 0.5% 
大 学 术科 及 上 | 0.8% 0.6m oa% 








对 总 体 参 数 未 知 的 部 分 变量 ， 需 计算 其 抽样 误差 . 鉴于 本 次 调查 用 
到 多 种 抽样 方法 ， 因 此 抽样 误差 的 计算 应 将 每 种 方法 所 对 应 的 误差 估计 
公式 结合 起 来 使 用 ; 

(ID 在 求 比例 的 信 计 时 , 用 二 项 式 公式 来 估计 六 Cp), 则 由 样本 得 到 
的 的 方差 的 苑 偏 估计 为 :” 


VD) Hy 702). 
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而 利用 整 群 抽样 技术 来 计算 六 (P) 的 值 , 财 公式 为 ， 


Vp) = 以 (一 2 


这 两 个 公式 在 多 阶段 抽样 中 药 不 同 阶段 使 用 , 对 于 分 层 的 情况 , 将 在 
各 层 中 独立 使 用 . 
(8) 在 求 数值 的 估计 时 , 由 样本 得 到 的 5 的 方差 的 无 偏 信 计 为: 
VD- SD". 
(8) 利用 分 夺 误 差 计算 各 阶段 误差 ， 对 种 有 分 层 的 基 一 特定 阶段 的 
抽样 误差 公式 为 ; 
VCP- Swi (pn), 


其 中 ,五 为 导数 ， WT; 为 层 的 权 ，pa 为 屋 的 样本 比例 ，VY (ps) 是 指 在 第 
万 层 反 复 取 祥 时 ps 的 方差 .这 一 公式 对 求 数值 的 公式 也 适合 , 只 须 将 D 
改 为 po 改 为 加 即 可 . 

(多 计算 多 阶段 抽样 的 误差 ; 本 次 抽样 全 国 祥 本 的 抽 选 是 五 阶段 的 ， 
其 抽 祥 误差 计算 公式 为 

V (p= V {BEB Esp) I} BA{V BoE Hs( p)))]} 
+ EA{Bs[Va(B Bs (Cp)))]} + BABs [Be(V aCBs Cp)))]Y 
+E {BlB (BVs(p)))}. 

这 里 六 表示 方差 , 加 表示 均值 ， 下 标 表示 各 具体 阶段 数 。 由 于 多 阶 
自 抽 样 的 误差 几乎 集中 在 前 一 .两 个 阶段 , 因而 实际 计算 抽样 误差 时 将 最 
后 阶段 的 误差 智 略 . 

下 面 即 是 此 次 调查 部 分 变量 的 抽样 误差 及 估计 均值 : 

问 1， 您 一 共 上 了 几 年 学 ? 

样本 均值 ，5.7 年 , 抽样 误差 ，0.36 年 ， 

问 33， 您 的 初 婚 年 龄 9 (调查 表 中 共有 常用 汉字 125 个 ) 

样本 均值 ，32.44 岁 ， 抽样 误 差 ，0.34 岁 . 

问 68: 您 的 识字 个 数 ? (调查 表 中 共有 常用 汉字 125 个 ) 

样本 均值 ，82.30 个 ， 搞 样 误差 ，4.76 个 . 

间 58， 在 您 周 国 是 否 存 在 如 下 男女 不 平等 的 现象 ( 表 芽 .12)?( 按 态 
受 的 强烈 程度 选 两 项 .) 
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表 .3 

选 却 项 首选 比例 抽样 误差 闷 选 比例 抽样 误差 
工 . 招生 时 男女 分 数 线 不 平等 9.49 I.5496 16% | 0.59% 
2- 男女 就 业 机 会 不 均等 14-5% 1.8696 7.19%6 | 工 -3459 
38、 男女 同 工 不 同 柄 — 作 x 1.549% 5.396 1.209%6 
4. 妇女 被 米 减 下 来 的 多 1.996 Ta | Bilge | 60.04% 
5. 六 性 离婚 再 婚 难 7T.8% 1.76%% | .3 1..336 
6. 妇女 党 俺 辱 、 诽 请 多 9.6% 1-745 | 7.19% .599% 
7- 生 女 孩 的 女性 被 野 视 22.1% 2.4% | 21.596 | 2.409% 
8. 女儿 座 承 遗产 难 6.15% 1.4298 21.7% 2.52%% 
9. 都 不 存在 20.59% 2.43% 1.9% 1-40%% 

三 、 数 据 处 理 方法 


中 国 妇女 社会 地 位 调查 个 人 调查 问卷 全 转手 数据 的 处 理 利 用 上 县 前 国 
际 上 常用 的 统计 软件 SPSS 完成 。 目前 主要 进行 了 单 变量 分 析 和 双 变 量 
交互 分 析 两 类 统计 . 

数据 计算 分 总 体 、 男 性 总 体 ,女性 总 体 城镇 总 体 、 农村 总体、 城镇 田 
性 .城镇 去 性 ,农村 男 位、 农村 女性 刻 个 域 进 行 。 为 了 使 结果 有 具有 更 科学 、 
更 全 面 、 更 矣 括 的 说 明 价 值 , 统计 时 对 上 述 九 个 域 分 别 伐 了 加 权 处 理 . 

对 城镇 总 体 、 农 村 总 体 , 城 镇 男性 ,城镇 女性 、 农村 男性 、 农村 女性 六 
个 域 使 用 了 抽样 时 产生 的 省 级 权 数 , 见 表 .13. 


唐 11.18 




















省 (市 ) 名 可 数 亿 权 数 值 
北 京 0.017175923 安 币 0.205107483 
江苏 0.107713136 江西 0.139544496 
河 北 0.1167484638 青 海 0.040280005 
广 东 0.1348751599 甘 蛋 0D.03444177 
EE 林 0.048751509 贵 州 0.049161759 
湖北 0 206143611 











对 男性 总 体 .女性 总 体 ， 由 于 抽样 设计 时 , 城镇 祥 本 量 与 农村 样本 量 
相等 ,但 实际 上 各 省 (市 ) 农 村 人 号 与 城镇 人 口 的 比例 并 不 相等 , 耐 且 城乡 
两 域 间 卷 的 回 效 量 也 不 均等 ， 因 此 给 定 的 权 数 必须 考虑 对 城乡 样本 的 各 
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自修 正 。 假设 某 省 回收 的 问卷 总 量 为 8， 城 镇 数 为 Sa 农村 数 为 Ss, 党 
级 权 数 为 到 s, 根据 4990 年 第 四 次 人 口 普 查 10% 抽 祥 汇总 资料 , 得 到 某 
省 的 城镇 人 口 百 分 比 为 五 s， 农 村 人 口 百 分 比 为 五 %， 该 省 的 城镇 权 数 与 
农村 权 数 分别 为 : 


Wa SE x Wa Ws SEs x a. 
屿 多 


表 卫 :1 显示 了 志 省 (市 ) 的 城乡 权 数 . 























表 11.14 

省 (市 名 城镇 代数 农村 权 效 省 (市 ) 名 城镇 权 数 农村 反 数 
北京 0.30790984 0.1404956 安徽 0.5561167 8,5888574 
江苏 0.4638521 | 1.5s91018 江西 0.5278843 2.184652 
河北 0.3130015 2.0316502 青 0.2276107 0.5781176 
广东 0.5439969 2.308378 甘肃 0.1105962 0.5695325 
吉林 0.4194826 0.5738158 贵州 0.123943 0,8780489 
湖北 0.4236393 | 1.6807483 | | 











对 总 体 域 , 我 们 一 方面 进行 省 级 、 城 乡 的 加 权 ， 同时 考虑 到 田 女 两 性 
祥 本 回收 数 ， 还 分 别 对 性 别 进行 加 权 ， 因 每 个 省 内 男女 两 性 样本 比例 近 
似 ， 故 对 性 别 的 加 权 统 一 考 碟 - j 并 个 省 (市 ) 间 卷 加 收 总 数 为 38741 份 ， 
其 中 男 任 问卷 数 11265 份 , 女性 问卷 为 12746 份 ， 1990 年 第 四 次 人 号 普 
查 10% 抽样 资料 显示 ， 全 国 男 性 人 口 比例 为 列 :45 匈 ,女性 大 口 比例 为 
48. 硬 多, 故 男性 权 数 与 女性 权 数 分 别 为 ， 


_ 237 性 x0. 弄 姑 
Wy ~1.0849092 


28741x0.4855 
Wa 0.9238742. 


因此 , 计算 总 体 域 时 , 对 各 省 数据 分 别 用 四 个 权 数 值 悠 正 ， 假 设 某 省 
的 省 级 权 数 为 Wa, 城乡 权 数 分 别 为 研 w、 到 ,那么 ， 
Was=— Wax Wwx 1.0843092; 
Wax— Wax WxX0.9288742; 
Wss— WeX Wsx1.0849092, 
Wss— Wax Ws x0.9238749. 
表 二 .15 烈 出 了 每 个 省 这 四 个 权 数 的 值 
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表 位 .二 
省 (市 ) 名 城 男 权 数 城 女 权 数 少男 权 数 多 女权 获 
北 京 0.2255139 0.1921468 0.1523406 0.1998098 
江苏 | 0.502959 0.4285409 1.7839201 | 1.4773683 
河 北 0.3408409 D.28972883 国 2.1S34628 1.8608964 
广东 0.5888543 0.5035971 | 2.506255 | 2.1323365 
吉林 0.4548488 0.3875491 0.6214815 | 0.5295268 
渭 北 0.4593558 0.3013893 - 1.82245238 | 1.5527999 

“ 安 第 0.6080024 | 0.5197318 3.8872156 8.269459 
江西 0.5723898 ~ 0.4876986 2.36853S2 | 2.0183436 
告 海 | 0.2463008 0.2102536 | 0.6268582 | 0.58401079 
车 宕 O1198554 | 0.102l215 | 0.6l7588e | 0.5z6t67T 

再 Ei 0.1343925 - D.tL45077 ! 0.94555]6 - 0.8056302 

评注 


1) 中 国 妇女 地 位 调查 是 一 项 全 国 性 的 大 规模 的 社会 调查 . 它 采 用 
三 种 调查 方法 , 以 个 人 问卷 调查 为 主 , 辅 以 社区 及 企 事业 单位 调查 与 统计 
文献 调查 . 其 中 第 二 种 调查 是 为 第 一 种 请 查 提供 进一步 的 背景 .补充 与 校 
验资 料 。 在 $11.6 北京 地 区 专业 技术 人 员 现 状 抽样 调查 中 ， 也 曾 对 每 个 
被 抽 中 的 基层 单位 进行 过 关 似 的 调查 。 至 于 本 文 所 说 的 统计 文献 调查， 
也 即 适 过 查阅 现成 各 种 统计 资料 ， 获 得 与 调查 目标 相关 的 种 种 信息 更 是 
一 项 完整 调查 所 必 不 可 少 的 , 特别 是 在 撰写 调查 报告 , 对 所 感 兴趣 的 问题 
进行 进一步 分 析 研 究 以 及 作 了 预测 或 其 他 决策 时 , 尤其 如 此 . 
2) 本 项 调查 的 组 织 严密 ，3000 余 名 调查 员 经 过 系统 堵 训 ,事先 组 级 
了 两 次 试点 调查 ， 在 调查 实施 以 及 数据 录入 整理 各 个 环节 都 育 严格 的 质 
量 检 验 措施 , 这 些 都 是 一 项 调查 取得 成 功 的 保证 。 
3) 本 项 调查 的 提 样 设计 也 是 十 分 严密 的 , 首先 考虑 到 今后 分 析 的 需 
要 , 将 总 体 按 省 分 成 研究 域 (domains of study), 省 内 再 按 城市 与 乡村 分 
. 域 ， 这 里 的 城 实 际 上 就 是 需 加 以 研究 的 子 总 体 , 在 抽样 时 , 与 层 的 处 理 完 
全 相同 .设计 的 基本 方法 也 蚌 采 用 分 户 多 阶 不 等 概率 抽样 , 在 每 全 域内 再 
控 某 些 特征 分 层 (这 仅 是 为 了 提高 精度), 层 内 采用 抽 县 (市 ) 县 (市 ) 内 抽 
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街道 ( 乡 ) 街道 ( 乡 ) 内 抽 居 (村 ) 民 委 员 会 ， 居 (村 ) 民 委 员 会 内 抽 户 的 
四 阶 班 样 。 以 家 庭 户 作为 基本 抽样 单元 在 前 三 阶 卸 样 中 都 用 PPS 抽 
样 ， 最 后 一 阶 采用 固定 样本 量 (城市 中 每 个 居委会 抽 20 户 ， 乡 村 中 每 
个 村 民有 委员 会 狂 10 户 ) 的 简单 随机 抽样 或 等 距 抽 样 ， 这 样 设 计 的 祥 
本 是 严格 自 加 权 的 ， 这 样 可 以 大 大 简化 数据 处 理 的 工作 量 ， 文 中 在 计 
算 抽 样 比 时 所 用 的 Mos (measure of size) 是 各 阶 折 有 滋 中 衡量 搞 样 单 
元 大 小 的 指标 。 在 本 例 中 取 的 是 所 包 食 的 户 数 . 有 时 也 常用 人 人 口 数 代 
蔡 . 

4 按 抽样 方案 ， 每 个 样本 户 只 调查 一 人 (除非 该 样本 户 和 包含 的 调查 
对 象 , 即 18~64 岁 的 成 年 人 超过 6)、 为 保证 最 终 样本 中 的 性 别 、 年龄 结 
构 与 总 体 大 体 一 致 ， 理 论 上 讲 应 是 在 所 有 符合 条 件 的 调查 对 象 中 随机 机 
取 一 人 进行 调查 .但 这 时 的 随机 如 和 何 进行 控制 而 不 会 流 于 形式 变 为 任意 
呢 ? 本 例 采 用 了 工 , Kish (1965) 设计 的 几 套 选择 表 .， 将 全 部 调查 表 标 成 
妈 式 .可 式 、Bs 式 、O 式 .也 式 、 加 | 式 . 加 s 式 与 下 式 8 种 选择 表 , 比例 
分 别 为 1/6, 4/12, 1/13, 1/6, 1/6, 1/12, 1/19 与 1/6, 并 按 此 比例 分 发 
至 (例如 说 ) 每 个 祥 本 街道 ( 乡 )， 将 样本 户 中 所 有 符合 条 件 的 调查 对 象 按 
先 男 后 女 , 先 长 后 幼 的 顺序 (实际 上 任何 一 种 确定 的 顺序 都 一 样 ) 编 号 , 则 
实际 被 调查 人 即 是 按 随 机 抽取 的 选择 表 上 记 夫 明 的 编导 的 家 庭 成 员 ， 这 
群 设 计 即 可 保证 样本 产 中 每 个 符合 条 件 的 成 员 被 抽 中 的 概率 都 相等 ， 例 
如 若 某 样本 户 有 4 名 符合 条 件 的 成 员 ， 那 么 排 在 第 一 位 的 成 员 将 在 抽 
到 4, 及 两 种 选择 表 时 抽 中 , 概率 为 (1/6) + (LT/I3) 一 14 第 二 位 成 员 则 
在 抽 到 Bs 及 0 两 种 选择 表 时 接受 调查 ,概率 也 为 1/4 第 三 位 成 员 则 在 
抽 到 刀 ， 刀 : 选择 表 时 接受 调查 ， 第 四 位 成 员 是 在 抽 到 加， 也 选择 表 时 
接受 调查 ， 概 率 还 是 1/4.。 这 种 操作 方法 虽然 比较 麻烦 ， 又 要 印 制 8 种 
不 同 的 标志 ， 但 因 规 定 具体 ， 二 容易 事后 检查 ， 从 而 能 更 好 地 保证 朱 
样 的 随机 性 .本 例 中 样本 的 性 别 比例 、 不 同年 龄 段 的 比例 以 及 不 同文 
化 程度 的 比例 均 符合 1990 年 人 口 普查 全 国 总 体 的 相应 比例 即 是 优 
证 . 

5) 前 面 已 提 到 由 于 层 内 样本 是 自 吉 权 的 , 因此 对 平均 数 与 比例 的 估 
计 直 接 可 用 样本 数值 , 有 方差 估计 也 很 简单 , 但 本 便 未 涉及 对 比值 型 百 标 
量 的 估计 ， 其 实 这 在 多 指标 调查 中 是 不 能 回避 的 。 另外 层 以 上 省 个 层次 
信守 可 委 兴 的 条 用 分 展 折 样 公式 有 区 丽 主要 是 确定 层 权 .只 
要 权 数 一 定 , 其 他 问题 就 迎刃而解 . 
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为 了 适应 社会 主义 市 场 经 济 体制 的 形成 和 发 展 、 政 府 职能 转变 和 科 
学 决策 的 进程 , 促进 卫生 事业 尝 观 管理 水 平和 决策 能 力 前 提高 , 加 强 卫 生 
事业 发 展 战略 目标 及 其 实施 过 程 的 监督 、 监 测 和 评价 , 国家 卫生 部 < 卫生 
事业 第 八 个 五 年 计划 及 2000 年 规划 设想 > 明确 提出 : “建立 卫生 发 展 . 管 
理 且 标 及 其 监督 评价 的 指 鹤 体 系 和 定期 的 卫生 服务 总 调查 制度 以 及 灵 
活 、 及 周 、 淮 确 的 综合 卫生 管理 信息 系统 "、 部 领导 已 岁 次 强调 要 加 快 综 
合 卫 生 管理 信息 系统 的 建设 .“ 为 部 领导 制定 方针 政策 、 健 全 法 制服 务 ， 
为 制定 卫生 事业 发 展 规划 服务 , 为 宏观 管理 实行 监督 .监测 服 务 . ”为 此 ， 
部 长 办 公会 决定 1993 年 在 全 国 范围 内 开展 国家 卫生 服务 总 调查 , 作为 完 
善 国 家 综合 卫生 管理 信息 系统 的 重要 环节 , 为 制定 社会 卫生 计划 与 政策 、 
卫生 管理 与 评价 服务 . 

卫生 服务 是 一 个 国家 或 地 区 卫生 部 门 为 一 定 的 目的 合理 使 用 卫生 资 
源 向 人 民 群 众 提供 卫生 服务 的 过 程 。 卫生 服务 的 调查 研究 旨 在 为 卫生 事 
业 的 宏观 管理 和 科学 决策 提供 客观 依据 、 早 在 五 十 年 代 ， 美国 等 西方 国 
家 就 建立 了 以 连续 性 的 健康 询问 调查 为 重点 的 卫生 服务 调查 研究 ， 七 十 
年 代 起 , 英国 ,加 拿 大. 日本、 苟 兰 等 一 些 发 达 国 家 也 相继 建立 了 健康 询问 
调查 制度 . 近 十 多 年 来 , 一些 发 展 中 国家 陆续 开展 了 一 次 性 或 重复 性 的 可 
新 面 卫生 服务 抽样 调查 . 我 国 卫 生 服 务 的 调查 研究 起 步 较 晓 , 但 发 展 速度 
较 快 .调查 研究 的 规模 胶 大 。 自 1931 年 4 月 中 美 双方 台 作 在 上 海 县 开展 
卫生 服务 的 调查 研究 以 后 ， 和 相继 有 长 春 市 等 十 多 个 总 市 和 农村 好 区 开展 
了 卫生 服务 的 抽样 调查 . 1985 年 以 来 卫生 部 有 关 司 局 相继 在 全 国 范围 内 
开展 了 城乡 医疗 卫生 服务 、 民 族 地 区 医疗 服务 .卫生 防疫 、 妇幼 卫生 、 乡 镇 
企业 职业 卫生 需求 与 对 策 的 调查 研究 。 这 些 调查 研究 不 仅 为 卫生 事业 科 
学 管理 和 制定 卫生 事业 发 展 计划 提供 了 重要 依据 ， 也 积累 了 比较 完整 的 
卫生 服务 抽样 调查 的 经 验 ， 在 认真 吸取 国际 、 国 内 卫生 了 服 务 调查 的 经 验 ， 
充分 考虑 调查 研究 的 科学 性 、 可 摹 性 和 可 行 性 的 基础 上 ， 氢 定 本 调查 方 
案 . 

一 、 调 查 目 的 

”) 本 节 正 文 节选 自 中 华人 民 共和 国 卫 生 部 < 国家 卫生 服务 总 调查 方 案 及 调查 指导 手册 加 
1993。 
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国家 卫生 服务 总 调查 的 基本 目的 是 提供 人 群 健康 状况 及 卫生 服务 
需要 量 . 有 关 卫 生 服 务 资 源 的 筹集 、 分 配 、 结构 和 卫生 服务 资源 利用 及 其 
效率 的 资料 , 为 卫生 事业 管理 决策 提供 客观 依据 ， 有 具体 目的 如 下 . 

1. 通过 系统 地 收集 我 国 不 同类 型 地 区 居民 两 周 病 伤 的 患 病 率 和 慢 
性 病 患 病 率 、 伤 残 率 、 因 病 伤 丧失 劳动 能 力 程度 及 其 影响 因素 的 砍 料 ， 反 
映 我 国 和 不 同类 型 地 区 居民 的 健康 状况 、 卫 生 服 务 需 要 量 和 存在 药 主 要 
卫生 问题 ， 分 析 不 同类 型 地 区 卫生 问题 的 优先 级 以 及 主要 的 影响 办 素 . 

2. 从 提供 卫生 服务 的 种 类 .数量 和 居民 实际 接受 名 类 卫生 服务 的 程 
度 两 个 方面 系统 收集 我 国 不 同类 型 地 区 居民 卫生 服务 利用 的 资料 ， 分 析 
和 评价 我 国 卫生 服务 利用 的 效率 和 效果 以 及 地 区 间 的 差异 ， 确 定 不 同类 
型 地 区 卫生 服务 资源 利用 的 现状 和 存在 的 问题 . 

3. 系统 地 收集 我 国 不 同类 型 地 区 卫生 资源 的 投入 量 以 及 筹集 、 分 
配 . 结构 ,比例 , 享受 各 种 医疗 保健 制度 的 人 数 、 费 用 以 及 因 病 自 付 医疗 保 
键 费 用 等 资料 ， 分 析 和 评价 我 国 不 同类 型 地 区 卫生 服务 资源 分 配 和 结构 
的 合理 性 以 及 影响 因素 . 

4. 分 析 和 研究 我 国 居民 健康 状况 . 卫生 服务 需要 、 卫生 服 务 利 用 及 
卫生 服务 资源 之 间 的 联系 , 探讨 卫生 服务 供需 的 平衡 关系 , 为 卫生 事业 的 
发 展 和 改革 .宏观 管理 和 科学 决策 提供 依据 . 

5. 为 深入 进行 某 些 疾病 病因 或 医疗 预防 保健 措施 等 方面 的 专题 研 
究 提 供 线 索 . 

二 、 调 查 对 象 和 调查 时 间 

家 宕 健康 询问 调查 的 对 象 为 全 国 抽 中 样本 储户 的 实际 人 口 ( 凡 居住 
并 生活 在 一 起 的 家 庭 成 员 和 其 他 人 , 成 单身 居住 、 生活 的 , 均 作 为 一 个 住 
户 )， 卫生 机 构 调 查 为 抽 中 "样本 地 区 ”[ 包 括 样本 县 (市 或 市 区 )、 样 本 乡 
镇 (街道 )、 样 本 村 (居委会 的 卫生 机 构 和 基层 卫生 组 织 . 

国家 卫生 服务 总 调查 的 调查 时 间 从 1993 年 6 月 工 日 开始 至 6 月 中 
日 结束 . 

三 、 手 样 设计 

国家 卫生 服务 总 调查 摘 样 的 原则 是 经 济 有 效 的 原则 ， 根 据 调 查 目的 
和 和 调 塞 内 容 采 用 多 阶段 分 宕 整 群 随机 抽样 方法 抽取 “样本 地 区 * 和 “样本 
个 体 ” 

第 一 阶段 分 层 采 用 多 变量 分 析 法 综合 社会 经 济 、 文 化 教育 .卫生 保健 
和 人 所 结构 等 多 个 指标 为 分 层 标 识 以 县 (市 或 市 区 ) 为 单位 进行 分 层 ， 将 










































































号 11.9” 转 家 卫生 服务 总 调查 397 


全 国 2400 多 个 县 (市 或 市 区 ) 分 为 五 类 地 区 。 根据 所 要 求 的 样本 量 按 各 
晨 占 总 体 的 比例 随机 整 群 抽取 各 层 的 “样本 县 (市 或 市 区 )” 共 90 个. 

第 二 阶段 分 层 采用 人 口 数 或 人 均 收入 为 标识 , 以 乡镇 (街道 ) 为 单位 。 
每 个 “样本 县 (市 或 市 区 )” 按 20% 的 比例 随 宙 整 群 抽取 乡镇 (街道 六 平均 
每 个 县 (市 或 市 区 ) 抽 取 五 个 乡 .镇 (街道 ) 为 "样本 乡镇 ( 衍 道 )w 全 国共 拥 
取 450 个 . 

第 三 险 段 采用 和 大口 数 或 人 均 站 入 为 标识 , 以 村 (居委会 ) 为 单位 , 平 钧 
考 个 “ 禅 本 乡镇 (街道 )” 整 群 随机 抽取 两 个 < 样本 村 (居委会 )”， 全 国共 摘 
取 900 个 村 (居委会 ). 

最 终 的 抽样 单位 是 户 ， 在 每 个 “样本 村 (居委会 )” 中 随机 抽取 60 户 ， 
全 国共 抽取 54000 户 . 全 国平 均 每 户 被 抽取 的 概率 浆 1:5000( 见 表 
1.16), 























表 坟 .16 国家 卫生 服务 总 调查 祥 本 量 和 抽 祥 概率 






































县 /市 区 2450 90 1:27 
”乡镇 /街道 70000 a50 L130 
村 /居委会 1000000 800 1:1130 
户 280000000 54000 1:5000 
人 1200000000 216000 1:5000 

四 、 调 查 内 容 


国家 卫生 服务 总 调查 包括 基于 “人 群 ”的 家 庭 健 康 询问 调查 和 基于 
“机 构 ” 的 卫生 服务 调查 , 两 种 调查 内 容 各 有 侧重 . (具体 项 目 路 》 

五 、 调 查 方法 
察 卫 生 服 务 总 调查 采用 一 次 性 机 断面 抽样 调查 . 

工 ， 资 料 收集 的 方法 

基于 “人 群 “ 的 家 庭 健康 询问 调查 采用 入 户 询问 、 询 问 与 查阅 记录 要 
绪 合 的 方法 .上 经 培训 合格 的 调查 员 在 对 调查 户 进行 摸底 调查 后 深入 冬 本 
廊 按 调查 夷 的 项 目 对 该 户 所 有 成 员 逐 一 进行 询问 调查 ;有 关 调 查 项 目 如 
确定 孚 产妇 系统 保健 ( 产 前 检 禁 、 产 后 访 祁 等 ) 和 儿童 系统 保健 等 内 容 应 
与 保健 手册 的 记录 核对 - 

基于 “机 构 ” 的 卫生 服务 调查 采用 文件 抄录 和 实地 调查 相 结 合 的 方 
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法 .常规 报告 .报表 和 工作 记录 已 有 的 指标 , 可 根据 调查 表 具 体 的 要 求 抄 
录 ; 需要 调查 的 指标 出 样本 县 (市 或 市 区 ) 卫 生 局 、 被 调查 了 荆 生机 构 的 统计 
人 员 与 有 关 人 员 配 合 进行 实地 调查 . 

2， 收 集资 料 的 人 员 

家 庭 健康 询问 调查 , 设 调查 员 和 调查 指导 员 . 调查 员 负 资 入 户 调查 . 
调查 员 的 挑选 由 当地 的 医务 人 员 承 担 为 宰 ， 在 农村 挑选 乡镇 卫生 院 前 医 
生 及 部 分 乡村 医生 ， 在 城市 挑选 地 段 医院 医生 非 医务 人 员 由 于 他 们 在 
疾病 诊断 方面 存在 困难 ， 一 般 不 予 考虑 ， 一 般 一 个 样本 乡镇 (街道 ) 组 织 
两 个 调查 组 , 一 个 调查 组 应 有 2 各 调查 员 ( 一 名 卫生 院 医生 和 一 名 乡村 医 
生 , 平均 一 个 调查 组 调查 60 户 ). 

调查 指导 员 负 责 涯 查 的 组 织 . 指 导 、 检查 、 及 验收 工作 、 调 查 指导 员 
应 是 乡镇 卫生 院 及 以 上 卫生 机 构 的 医生 ， 让 县 (市 区 ) 卫 生 局 指定 ， 每 个 
样本 乡镇 (街道 ) 应 配 一 各 . 

“ 机 构 ” 卫 生 服务 调查 的 调查 人 员 应 该 是 该 单位 的 业务 领导 和 统计 人 
员 , 调查 夺 需 要 与 有 关 业 务 部 门 的 同志 配合 . 

3. 资料 收集 的 工具 

家 庭 健康 询问 调查 采用 : @@ 家 宕 健康 调查 表 ， 国 0~5 岁 儿童 健康 
调查 表 ，@ 二 一 旨 岁 已 婚 育 郁 妇 康健 康 调查 表 ;， 图 60 岁 及 以 上 者 年 人 
健康 调查 表 .。 侠 两 周 病 伤 调查 表 ; @@ 19932 年 住院 调查 表 . 

“机 构 ” 卫 生 腊 务 调查 采用 : @ .全 县 《市 或 市 区 ) 基本 情况 调查 玫 ， 
图 乡镇 (街道 ) 卫 生机 构 调查 表 ， 例 | 时 级 (居委会 ) 卫 生 组 织 情况 调查 表 ; 
名 医院 (县 及 县 以 上 医院 、 中 医院 、 专 科 医 院 、 疗 养 院 ) 竺 襄 调 查 表 ; 回 卫 
生 防 疫 机 构 情况 调查 表 ; @ 妇幼 保健 机 构 情 况 调查 表 ， 

六 、 调 查实 施 和 质量 控制 

为 了 保证 调查 的 频 利 展开 和 调查 的 质量 ， 必 须 对 调查 的 每 一 个 环节 
实行 严格 的 质量 控制 ， 质量 控制 包括 设计 阶段 ( 含 调查 者 的 设计 ) 的 质量 
控制 .调查 员 前 质量 控制 .调查 实施 阶段 的 质量 控制 和 资料 整理 阶段 的 质 
量 控制 . 

i， 调查 方案 设计 .论证 和 试 调查 

调查 方案 的 设计 必须 要 科学 可 行 ， 指 标 第 选 要 慎重 ， 指 标 解释 要 清 
楚 , 各 项 标准 要 统一 , 在 正式 确定 调查 方案 前 必须 经 过 反复 前 论证 和 试 请 
查 , 其 目的 是 检验 调查 设计 工作 的 合理 性 及 可 行 性 , 正式 调查 前 通过 试 调 
查 使 油 查 员 熟 悉 调 查 内 容 , 笋 到 准确 .完整 地 填写 调查 表格 。 
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2. 调查 人 员 的 培训 

调查 人 员 药 严格 挑选 和 培训 是 取得 蕉 确 、 可 靠 资料 的 不 可 缺少 的 前 
提 , 培 训 的 要 求 是 : 明确 调查 的 目的 和 意义 , 了 解 调查 设计 的 原则 和 方法 ， 
统一 指标 的 含义 及 填写 , 得 以 保证 调查 工作 的 质量 , 明确 调查 工作 的 进程 
等 .每 一 个 调查 员 必 须 按照 统一 计划 和 填 表 说 明 的 要 求 执行 。 人员 培训 
按 统一 的 培训 计划 . 绽 一 培训 内 容 和 教材 分 两 级 培训 . 卫生 部 负责 培 诉 
省 级 国家 下 生 服 务 总 调查 管理 人 员 和 样本 县 (市 或 市 区 ) 负 责 人 及 师资 人 
员 , 省 督促 各 样本 县 (市 或 市 区 ) 培 训 乡 镇 (街道 ) 调 查 指导 员 和 和 调查 员 . 培 
训 绪 束 后 , 应 对 培训 效果 进行 考查 , 考查 合格 后 才能 参加 正式 调查 . 

3- 明确 调查 人 员工 作 职责 , 建立 调查 质量 核查 制度 

明确 调查 人 员 任务 与 职责 分 工 是 保证 调查 质量 重要 因素 之 一 ， 提 高 
调查 人 员 的 南 企 心 和 积极 性 ， 念 止 由 于 分 工 不 清和 责任 不 明 造 成 扯皮 现 
象 . 调查 指导 员 和 调查 员 必 须 按 照 < 国家 卫生 服务 总 调查 调查 人 员 职责 
及 现场 工作 准则 > 的 要 求 进行 工作 . 

调查 质量 的 核查 制度 包括 ; 

中 现场 调查 中 ， 在 每 户 询问 并 记录 完毕 后 , 调查 员 都 要 对 填写 的 内 
容 进行 全 面 的 检查 ， 如 有 疑问 应 重新 询问 核实 , 如 有 错误 要 及 时 改正 , 有 
和 遗 漏 项 目 要 及 时 补 填 . 

鲍 每 个 乡镇 (街道 ) 的 调查 缘 导 员 要 对 每 户 的 调查 震 进 行 核 查验 收 ， 
从 正式 调查 开始 后 的 当晚 检查 调查 表 的 准确 性 和 完整 性 , 发 现 错漏 项 时 ， 
要 求 调查 员 应 在 第 二 天 重新 询问 予以 补充 更 正 , 认真 核实 无 误 后 , 方 可 签 
字 验 收 . 

父 每 个 县 (市 区 ) 设 立 质 量 考 核 小 组 在 调查 过 程 中 抽查 调查 质量 , 调 
查 完 成 后 进行 复查 考核 ， 家 庭 健康 询问 调查 的 复查 考核 应 在 已 完成 户 数 
中 随机 抽取 5 多 ,观察 复核 调查 与 调查 结果 的 符合 率 ; 机 构 卫 生 服 务 调查 
的 复核 应 与 有 关 报 表 如 人 员 、 财 务 . 工 作 报表 等 核对 , 考查 其 符 仓 率 ， 

名 卫生 部 将 组 织 有 关 省 成 立 质量 检查 组 , 分 赴 各 地 进行 质量 考核 。 

4. 质量 要 求 

中 一 致 性 百分比 ， 用 来 衡量 调查 人 员 调 查 技术 的 一 致 性 ,要 求 经 过 
培训 后 , 调查 人 员 调 查 技 术 的 一 致 性 达到 100%. 

加 符合 率 : 复查 考核 中 , 间 户 复查 与 调查 结果 的 符合 率 除 了 两 周 种 
病 有 所 差异 以 外 , 其 他 项 目 符 售 率 要 求 在 97% 以 上 . 

回 调查 完成 率 ， 在 出 现 了 三 次 上 门 无 法 主 查 而 放弃 该 户 时 , 应 从 候 
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神户 数 中 按 顺序 递 衬 、 调 查 完成 率 应 控制 在 98 多 以 上 . 

@@ 本 人 回答 率 ， 回 答应 以 本 人 为 主 ,本 人 不 在 场 时 应 由 熟悉 情况 的 
人 代替 回 答 ; 儿童 一 般 由 母亲 代 蓉 回答， 育 奏 妇女 最 好 由 本 人 回答 ; 误 求 
葡 年 人 自己 回答 率 不 低 于 90 多 。 

七 、 数 据 处 理 及 上 报 方式 

采取 分 省 录入 , 集中 汇总 的 方式 ， 各 调查 县 (市 区 ) 如 期 将 调查 表 收 
齐 审 核 无 误 后 ， 在 规定 的 时 间 内 (1998 年 7 月 10 日 前 ) 上 交 给 各 省 卫生 
厅 ; 各 省 卫生 反 验 收 合 糙 后 按 卫 生 部 统一 编制 的 程序 组 织 人 员 进 行 录入 ， 
经 检查 数据 无 错误 、 无 遗漏 后 ， 在 1998 年 8 月 底 前 将 坎 静 报 至 卫生 部 忆 
生 统 计 信 息 中 心 . 

八 、 组 织 领导 
国家 卫生 服务 总 调查 由 卫生 部 统一 组 织 ， 国 家 中 医药 管理 局 和 国家 
医药 管理 局 参与 , 组 成 “国家 卫生 服务 总 调查 领导 小 组 ”, 洲 请 有 关 专 家 成 
立 “ 专 家 咨询 组 "和 有 关 人 员 组 成 的 具体 “执行 组 *， 具 体 负责 画家 卫生 服 
务 总 调查 的 方案 设计 和 论证 、 组 织 全 国 省 和 县 级 师资 培训 、 组 织 调查 实 
施 、 质 量 控制 .技术 指导 和 咨询 等 项 工作 . 

各 省 、 自治 区 . 直辖 市 卫生 厅 局 相应 成 立领 导 小 组 负责 本 省 抽样 地 
区 的 卫生 服务 调查 的 领导 、 组 织 调 查实 施 、 质量 控制 和 资料 验收 . 技术 指 
导 和 咨询 等 项 工作 . 

样本 地 区 的 卫生 局 应 成 立 相 应 领导 小 组 , 负责 领导 ,组 织 调查 指导 员 
和 调查 员 的 培训 、. 组 织 实 施 本 地 区 卫生 服务 的 调查 和 调查 大 的 质量 控制 
工作 . 

各 省 .自治区 、 直 辖 市 和 各 样本 县 (市 或 市 区 ) 领 导 小 组 人 员 名 单 以 及 
参加 调查 工作 的 调查 人 员 和 名 单 在 调查 完毕 后 由 各 省 .自治 区 ,直辖 市 统一 
报 送 卫生 部 . 

全 国 范围 内 开展 综合 性 的 卫生 服务 抽样 调查 在 我 国 尚 属 首次 ， 是 一 
次 新 前 艰巨 的 , 但 也 是 一 次 意义 重大 前 工作 ， 轨 求 各 地 卫生 行政 部 门 要 
给 予 高 度 重视 , 作 好 组 织 , 宣传 和 实施 工作 ， 取 得 当地 政府 及 各 界 人 士 的 
支持 ， 做 好 群众 的 宣传 、 教育 和 组 织 工作 ,以 取得 群众 的 理解 和 密切 的 配 
Es 
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附件 ”国家 卫生 服务 总 调查 样本 地 区 和 和 样本 个 体 的 抽取 方法 
一 、 福 述 
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1. 国家 卫生 服务 总 调查 抽查 的 原则 是 既 要 兼顾 调查 设计 的 科学 性 
条 梯 本 地 区 和 样本 个 体 对 全 国 和 不 同类 性 地 区 有 足够 的 代表 人 性 ， 又 不 至 
于 过 多 增加 样本 量 而 加 大 调查 的 工作 量 , 好 经 济 有 效 的 原则 . 

2. 抽样 的 方法 是 多 阶段 分 层 整 群 随机 抽样 法 ， 第 一 阶段 分 层 是 以 
县 (市 或 市 区 ) 为 样本 地 区 ; 第 二 叭 段 分 层 是 以 乡镇 (街道 ) 为 样本 地 区 ; 第 
三 阶段 分 层 以 村 为 样本 地 区 ; 最 后 是 住户 为 祥 本 个 体 ， 

二 、 第 一 阶段 分 层 整 群 抽样 

i. 第 一 阶段 抽样 着 重 解 决 两 个 基本 问题 

一 是 由 于 全 国 各 县 .市 差异 极 大 ， 妈 何 确定 第 一 阶段 分 层 的 基准 ; 二 
是 抽样 比例 , 多 大 的 县 、 市 样本 量 能 经 济 有 效 地 代表 全 国 和 不 同类 型 的 地 
区 . 

2. 第 一 阶段 分 层 基准 的 确定 

第 一 阶段 分 层 的 指标 是 通过 专家 咨询 法 和 逐步 回归 法 第 选 的 10 个 
与 卫生 有 关 的 社会 经 济 、 文 化 教育 、 人 口 结构 和 健康 指标 10 个 指标 的 
主 成 份 分 析 结 果 如 表 堪 .17 所 示 ， 





























表 11.17 主要 社会 经 济 和 人 口 动力 学 指标 的 主 成 份 因 子 模型 









四 
第 一 产业 就 六 率 % 

寺 风 以下 人 口 比 全 到 
文言 率 % 

租 由 此 率 知 

粗 死 亡 率 多 
楼 儿 死 亡 率 各 

人均 工农 业 产 什 

第 二 产业 就 业 宁 名 
初中 人 口 比例 呢 

05 岁 以 上 人 口 纪 例 % 


从 主 成 份 分 析 中 可 以 看 出 主 成 份 1 与 绝 大 多 数 变 量 有 十 分 显著 的 关 
联 ， 意义 十 分 明确 ,而且 代表 10 个 变量 整体 信息 的 席 ,22 多 ， 其 值 的 大 
小 可 以 综合 反映 一 个 地 区 社会 经 济 . 文 化 教育 .人 局 及 其 健康 的 发 展 、 因 
此 , 确定 主 成 份 工 为 分 层 的 基准 称 它 为 分 层 因子 . 
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3 第 一 阶段 的 聚 类 分 层 

在 计算 各 县 、 市 分 层 因 子 的 得 分 后 , 用 -Means 聚 类 分 析 方法 将 总 
体 分 为 组 间 具 有 异 质 性 和 组 内 具有 同感 性 的 五 类 地 区 即 五 屋 ， 聚 类 分 奶 
的 结果 第 一 层 有 201 个 县 (市 或 市 区 》 占 整个 县 (市 或 市 区 ?的 8.3%; 第 
二 层 有 650 个 县 (市 或 市 区 ), 占 26.5%; 第 三 层 有 698 个 县 (市 或 市 区 》， 
占 38.5%; 第 四 层 有 684 个 县 (市 或 市 区 占 23.2%; 第 五 层 有 玉 急 占 
8.6%. 

袁 志 .18 显示 了 和 名 层 因 子 得 分 和 选择 的 社会 经 济 等 变量 的 均值 ， 可 
见 各 层 呈 明明 的 梯度 ， 可 以 认为 , 第 一 层 所 在 的 市 县 ， 是 社会 经 济 、 文 化 
教育 和 卫生 事业 发 展 以 及 人 群 健康 状况 好 的 地 区 ， 第 二 层 是 比较 好 的 地 
区 , 第 三 层 是 一 般 性 地 区 , 第 四 层 是 比较 差 , 第 五 层 是 差 的 地 区 ， 


崇 寻 -5 主要 社会 经 济 和 人 口 动力 学 指标 的 主 成 份 因子 模型 


























层 别 市 且 因子 得 分 社会 经 济 和 人 口 动力 学 措 宗 

| 数 均 数 距离 GNP AEP ILLIT CDE 工 MR 
工 。 201 一 3.4354 3210.28 3330 15.7 19.7 5.1 17.5 
2 650 一 0.5638 2164.66 885 4. 下 23,7 互 .7 26.2 
3 698 0.0692 1655.00 450 83-5 32 ,全 6.8 31,4 
4 .691 0.5776 1264.57 341 288.1 43.6 7.4 49.1 

5 a 1.7457 ”539.61 319 90.0 66.8 11.7 121.4 


类 革 .19 不 同 大 小 样本 量 样本 在 各 层 的 分 本 




















层 别 全 国 不 丙 大 小 样本 量 样本 的 分 配 
合计 (%) 120 90 60 5 30 
第 一 居 201 (8.2) 10 8 5 4 2 
第 二 层 650 {26.5) 32 中 16 1 8 
第 三 层 698 (28.5》 34 26 了 13 9 
第 四 层 691 (28.2) 34 25 17 13 8 
第 五 层 212 18.0) 20 3 5 4 


4、 第 一 阶段 分 层 等 概率 多 种 样本 最 的 抽样 
用 经 济 有 效 的 样本 代表 总 体 是 抽样 调查 的 精 锻 ， 样 本 趴 的 确定 基于 
以 往 的 经 验 和 其 他 国家 抽 祥 调查 样本 的 设计 ， 首先 给 定 一 个 样本 量 大 小 
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的 范围 , 确定 抽取 样本 量 为 130，90，60，45，380 五 个 大 小 不 等 的 样本 .为 
了 保证 各 层 每 一 个 县 (市 或 市 区 ) 都 有 辣 等 被 抽取 为 样本 的 概率 ， 必 须 考 
幅 不 同 大 小 样本 量 的 样 本 在 各 层 的 分 配 ， 即 按 比 例 的 分 层 ' 质 样 ， 见 表 
11.19., 

按 系 统 随 机 抽 笠 方 法 ， 每 个 不 同 大 小 样本 量 欧 样本 抽 联 6 次 . 同一 
样本 量 的 6 次 抽样 , 通过 计算 每 次 抽样 样本 各 变量 的 统计 量 , 分 别 与 总 体 
各 变量 参数 进行 比较 , 从中 鱼 选 出 与 总 体 参 数 最 为 接近 的 那个 祥 本 , 作为 
该 样本 量 的 最 佳 抽取 样本 . 

考虑 到 经 济 有 效 的 原则 和 对 全 国 、 不 同类 型 的 地 区 和 上 述 每 个 指标 
的 代表 人 性 , 国家 卫生 服务 总 调查 的 县 (市 或 市 区 ) 样 本 量 取 90. 

三 、 第 二 阶段 整 群 随机 抽样 

i1. 在 上 述 抽取 的 90 个 “样本 县 (市 或 市 区 ) 中 ， 以 乡镇 (街道 ) 为 第 
二 阶段 整 群 系统 随机 抽样 单位 .全 国 每 个 乡镇 (街道 ) 被 抽取 为 “ 祥 本 乡镇 
(街道 )” 的 概率 是 1:160。， 第 二 阶段 整 群 系统 随机 抽样 全 国共 抽取 450 
个 乡镇 (街道 )， 平 均 每 个 “样本 县 (市 或 市 区 )* 拍 5 个 乡镇 (街道 )、 第 二 
芥 段 分 层 整 群 抽 样 具体 由 各 样本 县 (市 或 市 区 ) 按 下 述 方 法 抽取 . 

32， 第 二 阶段 整 群 随机 抽样 的 基准 

由 于 一 个 县 (市 或 市 区 ) 内 社会 经 济 、 文 化 教育 和 卫生 状况 的 差异 远 
小 于 全 国 各 县 ,市 之 辣 的 差异 , 因而 确定 具 (市 或 市 区 ) 的 抽样 基准 相对 容 
易 。 根据 我 国 各 县 《市 或 市 区 ) 前 基本 特征 、 实 际 的 可 操作 性 和 以 往 抽样 
调查 常用 的 指标 , 确定 采用 人 口 数 ( 或 人 均 收 入 ) 作 为 分 层 基准 . 

3. 第 二 阶段 整 群 随机 抽 祥 的 的 方法 

人 将 样本 县 (市 或 市 区 ) 所 有 的 乡镇 (街道 ) 接 大口 数 的 多 少 (或 人 均 
收入 的 大 小 ) 由 多 到 少 依次 排序 . 

国 由 多 到 少 依次 计算 人 口 数 (或 人 均 收 入 ) 的 累计 数 . 

图 计算 抽样 间隔 , 用 累计 的 人 口 总 数 (或 人 均 收入 黑 计 总 数 ) 除 以 抽 
到 的 样本 数 ( 黑 计 总 数 /5). 

凶 用 纸币 法 (随便 拿 出 一 张 人 人民币， 看 人 民 而 的 号 码 与 最 初 累计 数 
哪 一 个 数 接近 ， 取 这 个 数 为 开始 数 ) 随 机 确定 第 一 个 样本 乡镇 (街道 )， 然 
后 加 上 抽样 距离 确定 第 二 个 样本 乡镇 (街道 )， 依 次 类 推 确 定 第 三 至 五 个 
样本 乡镇 (街道 )， 

四 、 第 三 阶段 随机 抽样 

工 ， 第 三 阶段 随机 抽样 的 基准 和 冬 水 重 
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(DD 在 局 一 个 乡镇 (街道 ) 内 ， 各 村 (居委会 ) 的 经 济 发 展 和 卫生 状 况 
基本 上 变异 不 大 ， 因 此 , 第 三 阶段 不 用 分 层 , 直接 采用 随机 整 群 抽样 的 方 
法 从 “样本 乡镇 (街道 ”中 抽取 样本 村 (居委会 ); 但 是 , 抽样 时 应 按 各 村 人 
均 收 入 或 人 口 数 作为 标识 进行 排序 、 第 三 阶段 随机 抽样 由 调查 指导 员 负 
均 . 

人 每 个 “样本 乡镇 (街道 )” 整 群 随机 抽取 3 个 村 ! 居 委 会 )， 全 国 起 
抽取 900 个 村 (居委会 ), 全 国 每 村 (居委会 ) 被 所 为 样本 的 概率 为 :1120. 

2. 第 三 阶段 整 群 随机 抽样 的 方法 

中 将 样本 乡镇 (街道 ) 押 有 的 村 (居委会 ) 按 人 均 收 入 的 多 少 (或 人 口 
数 的 大 小 ) 由 多 到 少 依次 排序 . 

@ 由 多 到 少 依次 计算 父 收 入 (或 人 口 数 ) 的 累计 数 。 

多 计算 抽样 间隔 , 用 累计 总 数 除 以 抽取 前 样本 数 ( 暴 计 总 数 /3) ， 

全 用 纸币 法 (随便 拿 出 一 张 人 民 币 ，. 看 人 民 币 的 号 码 与 最 初 累计 数 
名 一 个 数 接近 ， 取 这 个 数 为 开始 数 ) 随 机 确定 第 一 个 样本 村 (居委会 ), 然 
后 加 上 独 样 距离 确定 第 二 个 样本 村 . 

五 、 样 本 户 的 抽样 

1 最终 的 抽样 单位 是 住户 ， 在 每 个 “样本 村 (居委会 )” 中 按 20% 的 
比例 随机 抽取 住户 , 平均 每 个 村 抽 60 户 ,全 国共 抽取 54000 户 。 全 国平 
均 每 户 被 抽取 为 样本 的 概率 为 54000/38000 万 ， 约 五 千 户 中 抽 一 户 ， 如 
果 按 每 户 四 个 人 计算 ,人口 抽 样 比 也 为 工 5000 左右 . 

2 抽 户 方法 是 各 样本 乡镇 (街道 ) 的 调查 指导 员 上 述 抽 祥 比 例 在 样 
本 村 :居委会 ) 随 机 抽取 , 具 栖 方法 ; 

中 护 人 口 普查 的 编码 顺序 ， 按 门 牌号 、 楼 号 、 单 元 导 、 门 号 从 小 到 大 
排列 . 

@ 对 同一 门牌 号 , 同一 个 大 院 和 搂 号 的 , 按 门 号 从 小 到 大 排列 , 对 同 
一 门牌 号 内 没有 们 导 的 按 从 左 到 右 、 从 外 到 里 .从 下 到 上 的 原则 编码 、 一 
经 编码 不 许 变 动 . 

图 编 好 住户 码 烈 入 住户 清单 中 . 

图 根据 抽样 比例 计算 应 抽 药 户 煞 (一 般 平均 每 个 样本 村 60 户 )， 然 
后 系统 短 机 抽取 ， 方 法 同上 ; 第 一 步 将 所 有 住户 的 人 口 累计 数 , 本 村 的 平 
列 人 口 数 (1200/300 一 4) 和 本 村 应 抽取 的 住户 数 (300*30% =60); 第 二 步 
计算 抽样 距离 .(1200/60 一 20); 第 三 步 确定 第 一 个 随机 数 (如 取 一 张 人 民 
币 , 其 编号 的 后 两 位 数 是 12, 这 个 随机 数 接近 第 3 编号 的 累计 数 , 因此 确 


















































多 11-9 国家 卫生 她 务 总 调查 395 


定 第 3 号 住户 为 第 一 个 样本 ; 第 五 步 用 第 8 号 前 暴 计 数 加 抽样 距离 (18+ 
30=88), 看 38 最 接近 第 几 编号 住户 ， 并 确定 这 家 住户 为 第 二 信 样 本 ， 同 
理 用 第 二 个 祥 本 和 住户 对 应 的 累计 数 加 抽 祥 耻 离 确定 第 三 个 样本 ， 同 样 确 
定 以 后 各 样本 住户 . 

鲍 所 样 时 可 多 抽取 六 户 , 作为 备用 。， 抽 敢 方 法 是 在 上 述 抽取 完毕 以 
后 , 按 上 述 步 又 青 从 未 抽取 的 住户 中 抽取 6 户 。 

评 注 

本 项 调查 时 在 全 面 了 解 和 掌握 我 国 城乡 居民 健康 状况 、 卫 生 服 务 
需求 量 及 卫生 资源 筹集 利用 情况 , 为 制定 我 国 卫生 事业 发 展 规划 、 方 针 和 
政策 提供 客观 依据 .调查 涉及 面 广 , 实际 调查 了 90 个 县 (市 或 市 区 ) 的 卫 
生机 构 以 及 5 万 户 家 庭 ，20 多 万 人 .本 次 调查 是 多 目标 的 综合 调查 、 单 
就 调查 表 来 说 , 就 有 < 家 庭 信康 询问 调查 表 >、<“( 县 、 市 ) 卫生 基本 情况 调查 
表 >、 乡 级 卫生 机 构 情 况 调查 表 >.< 村 级 基层 卫生 机 构 情 况 调 查 玫 > 医院 
基本 情况 汕 查 表 >、< 卫 生 咏 疫 机 构 调查 表 > 及 < 妇幼 保健 机 构 调 查 表 > 等 
了 种 .而 每 种 少 则 包 合 数 十 个 问题 ,多 则 有 上 百 个 间 题 。 其 中 家 庭 健 康 
询问 调查 表 又 分 : 住户 健康 询问 才 、0~5 岁 儿 童 健 康 调查 表 、 基 一 各 
岁 己 婚 育 龄 妇女 健康 表 、60 岁 及 以 上 老年 人 健康 调查 霄 、 两 周 病 伤 调查 
表 以 及 1992 年 (调查 前 一 年 ) 住院 调查 表 等 6 种 . 其 中 住户 健康 询问 表 
栈 有 针对 户主 的 , 又 要 求 每 个 家 庭 成 员 加 答 的 .后 两 种 类 也 是 需要 每 个 成 
员 回 答 的 。 这 确 是 名 符 其 实 的 国家 卫生 服务 总 调查 . 像 这 类 调查 , 不 仅 
要 求 调查 目的 与 对 和 儿 明 确 , 调查 方法 科学 且 可 操作 , 更 需要 强 有 力 的 组 织 
领导 和 严格 的 质量 保证 措施 。 本 案例 中 的 前 一 部 分 对 这 些 方面 都 作 了 详 
尽 的 介绍 , 值得 异 鉴 . 

2) 本 项 目 中 的 主 调查 一 一 即 家 庭 健康 询问 调查 实际 采用 的 是 分 层 
四 阶 整 群 抽样 ， 邮 在 对 全 国 所 有 县 .市 分 层 的 基础 上 , 在 层 内 抽 县 、 市 ; 在 
其 (市 ) 内 抽 乡 (镇 .街道 ); 在 乡 ( 镇 .街道 ) 内 抽 材 ( 居 ) 民 委员 会 , 最 后 在 抽 
中 的 村 ( 居 ) 民 委 员 会 中 抽 家 庭 户 ， 对 所 有 被 抽 中 的 户 进 行 全 户 及 每 个 成 
员 的 调查 .文中 芍 “样本 地 区 ”和 “样本 个 体 * 即 是 每 阶 抽样 中 的 抽 祥 单元 . 
而 前 两 阶 抽样 中 所 谓 的 “ 整 群 折 样 的 捉 法 不 是 标准 用 法 ， 实 际 上 本 项 目 
的 整 群 抽样 应 是 指 最 后 一 阶 即 第 四 阶 抽 样 是 以 住户 为 群 的 抽样 ， 

3) 第 一 阶 抽 祥 即 全 国 对 县 市 的 铀 样 是 按 比例 分 配药 分 层 铬 样 . 我 
冯 幅 只 广大 , 各 地 经 济 文化 卫生 水 平 差 异 极 大 ， 因 此 对 县 、 市 的 分 层 是 十 
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分 必要 的 ， 本 案例 用 多 元 分 析 方 法 先 根据 往 选 出 来 的 10 个 反映 社会 经 
济 和 人 口 动力 学 指标 进行 主 成 分 分 析 , 以 第 一 主 成 分 作为 分 层 指标 , 再 应 
诊 类 分 析 法 将 全 国 3453 个 其 (市 、 市 区 ) 分 成 5 层 ， 各 层 之 间 的 社会 经 
济 和 人 口 动力 学 指标 都 有 显著 差异 . 这 样 做 将 充分 利用 分 层 抽样 的 优点 ， 
大 大 沽 高 调查 精度 在 条 件 多 许 时 是 于 分 可 取 的 方法 ,而 且 分 类 ( 层 ) 的 
结果 还 可 为 以 后 其 他 全 国 性 调查 作为 参考 、 

层 确 定 后 , 本 例 还 对 第 一 阶 抽样 前 不 同样 本 量 的 选择 进行 了 研究 , 对 
每 种 样本 量 都 模拟 拍 了 6 个 不 同 的 样本 , 比较 样本 (上 县. 市) 中 各 变量 参数 
与 全 国 相 应 参数 ， 最 后 考 目 到 经 济 丽 有 效 的 原则 以 及 样本 对 全 国 的 代表 
性 确定 采用 抽取 90 个 县 , 市 及 最 终 祥 本 .。 模拟 抽样 若干 组 不 同 的 样本 ， 
再 进行 人 为 的 取 会 , 削弱 了 样本 的 随机 性 ， 有 点 “代表 性 抽样 * 或 “目的 抽 
样 ”的 意思 , 这 是 不 是 一 种 可 取 的 方法 ， 不 能 一 概 而 论 ， 伍 笔者 认为 除非 
不 得 已 (例如 工 .3 中 国 5 岁 以 下 斤 童 死亡 搬 样 调查 中 的 情况 )， 还 是 应 
首选 严格 的 随机 抽样 . 一 般 铺 沉 下 ， 只 要 样本 量 不 是 太 小 ， 所 获得 的 样 
本 欧 代 表 性 是 不 成 问题 的 ， 由 于 多 阶 抽 样 中 第 一 阶 抽样 的 抽样 误差 在 整 
个 抽样 误差 中 占 主导 池 位 , 因此 只 要 组 织 及 费用 有 保证 , 第 一 阶 抽样 的 样 
本 量 还 是 以 适当 大 一 些 为 宜 . 

名 第 二 、 三 阶 抽样 都 采用 按 人 口 数 或 人 均 收 入 进行 排序 ,并 以 这 两 
个 标识 之 一 为 辅助 变量 进行 不 等 医 率 系统 抽样 , 样本 量 是 固定 的 . 根据 方 
案 ， 这 两 个 标 误 是 可 供 选择 的 (其 中 第 二 阶 抽 祥 首选 的 是 人 口 数 , 第 三 阶 
抽样 首选 的 是 人 均 收 入 )， 另 外 第 四 阶 抽样 是 按 加 多 的 比例 用 无 关 标 识 
排队 的 系统 抽样 抽 家 庭 户 , 平均 样本 重 为 60 户 、 这 里 有 几 个 问题 值得 商 
楼 ， 按 某 种 标识 进行 排队 再 作 系统 抽样 是 为 了 增 大 样本 内 方差 从 而 提高 
佑 计量 的 精度 ,这 样 做 是 可 以 理解 的 . 但 作为 辅助 变量 进行 不 等 概率 系 
统 抽 娠 (在 实施 时 按 这 个 辅助 变量 累计 作为 代码 ) 则 用 人 均 收 入 并 无 意 
义 .车 这 两 阶 扫 样 中 皆 用 人 口 数 作 不 等 概率 系统 抽样 , 而 最 后 一 阶 抽 祥 是 
定 样 本 重 ( 不 是 固定 抽样 比 ! 这 两 者 不 可 兼 得 ) 的 等 概率 系统 抽样 , 那么 
所 得 的 样本 在 呈 、 市 内 是 自 加 权 的 . 如 果 进 一 步 第 -一 阶 抽样 也 采用 与 人 
忆 数 成 比例 的 PPFS 抽样 (或 不 等 概率 系统 抽样 )， 则 整个 样本 是 自 加 权 
约 ， 这样 将 大 大 简化 其 后 的 数据 处 理 . 按 本 方案 实际 抽样 所 得 的 样本 不 
是 自 加 权 的 ， 甚 数据 处 理 将 十 分 复杂 笔者 未 见 到 本 案例 完整 的 数据 处 
理 公式 . 但 从 方案 叙述 来 辕 , 估 讨 设计 者 将 按 各 芥 (平均 ) 抽 祥 比 逐 级 加 
议 或 干脆 作为 自 加 权 ( 将 按 人 的 总 搬 样 比 取 为 1:5000)， 这 样 做 误差 太 
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大 , 这 是 本 案例 抽样 方案 的 不 足 之 处 、 另 处 最 后 一 阶 抽样 的 样本 量 ( 平 均 
为 60 户 ) 按 笔者 的 经 验 也 稍为 多 了 一 些 ， 如 果 将 第 二 价 抽 辜 中 药 街 道 
〈 乡 镇) 或 第 三 阶 抽样 中 的 村 ( 居 ) 民 委员 会 的 样本 量 增加 一 售 , 将 每 个 村 
〈 居 ) 民 委员 会 的 祥 本 量 减少 一 半 将 可 进一步 提高 精度 . 

5) 本 讽 各 界 抽样 实施 时 均 采 用 随机 起 点 的 系统 抽样 ， 起 点 单元 (或 
和 代码) 的 抽取 用 的 是 纸币 的 未 几 位 号 码 ， 这 个 方法 固然 可 行 , 看 起 来 似乎 
也 简单 , 但 实际 上 存在 前 问题 并 不 少 ， 首 先是 “看 人 民 币 的 电码 与 最 初 标 
计数 哪 一 个 数 接 近 ， 即 这 个 数 为 开始 数 ”， 这 与 不 等 概率 抽样 的 累计 代码 
法 确定 样本 单元 并 不 完全 相符 ， 因 而 是 不 严格 的 。 用 纸币 号 码 代 蔡 随机 
数 的 产生 看 起 来 是 为 了 避免 使 用 随机 数 表 或 随机 数 贷 子 ， 其 实 实 焉 随机 
化 机 制 诅 多 种 , 对 于 系统 抽样 中 只 需 产生 少数 几 个 随机 数 的 场合 , 笔者 建 
议 利用 目前 已 相当 普及 的 袖珍 计算 器 。 对 于 一 般 科 学 计算 器 , 按 一 下 标 
有 (SHIFT) RAN 的 那个 键 ( 一 般 是 小 数 点 “.” 贸 或 数字 “0” 键 的 第 二 功 
能 键 ) 即 可 产生 一 个 [0，1] 范围 内 的 均匀 随机 数 (实际 产生 的 一 般 是 
0.000~0.999). 如 果 要 求 产生 一 个 1~ 汉 范围 内 的 随机 和 整数 , 则 可 用 乘 
以 计算 器 产生 欧 随 机 数 , 再 取 整 就 得 到 所 需要 的 随机 数 . 读者 不 妨 一 试 . 




















$11.10 人 口 变动 情况 抽样 调查 ” 


为 保证 上 人 口 变动 情况 抽样 调查 对 全 国 和 各 省 .和 白 治 区 .直辖 市 有 较 好 
的 代表 性 , 本 调查 以 全 国 为 总 体 , 以 省 级 单位 为 子 总 体 . 

一 、 各 省 、 自 治 区 .直辖 市 样本 景 

设计 样本 规模 的 主要 参数 是 人 口 出 生 率 0BR, (最 大 ) 允 许 绝对 误差 
4, 置信 度 1 一 e, 抽样 比 了 和 设计 效应 de 年 。， 各 省 、 自 治 区 、 直辖 市 应 根 
据 1992 年 人 口上 出 生 率 ， 采 用 不 同 的 抽样 精度 确定 各 自 的 样本 量 ， 其 中 4 
控制 在 1 和 %~1.8%% 范围 内 , 相对 误差 控制 在 10% 左右 , 冤 信 和 度 到 为 95 多 
好 一 纹 ，deff 佑 计 为 工 .4。 样 本 县 的 计算 公式 为 

n= OB) —OBR) x deff. 




















名 省 级 单位 拟 抽 取 的 样本 量 和 允许 抽样 误差 见 表 也 .20. 全 男 桩 本 
总 量 为 116.2 万 人 , 人 口 出 生 率 多 许 (绝对 ) 误 差 的 为 0.3 入 ， 


") 本 节 正 文 根 据 国 家 统计 局 1993 年 人 口 变动 情况 抽样 调查 方案 (1993 年 9 月 ) 及 有 关 
附件 改写 。 政 号 日 的 是 为 使 原文 的 表达 更 清楚 些 。 








了 到 98°0 96 S900°0 80°0 8100°0 5 TgeT 08` gg | 要 
4 表 00T 到 3800°0 300 2T000 BF T0868 | 夏 王 
$ 08 三 0 85 4900°0 80"0 2T00°0 D TOF 9"BE | 到 最 
8 现 8 人 8 L100 30°0 9T00'0 P 5T83 6T | 时 具 
9 睁 人 280 20T O00 80°0 9T00'0 多 07 S88T | 地 济 
8 5 00 ,gL 6000°0 78°0 0800:0 80 8Z8 8986 | 渤 型 
9 如 080 12I OT00°0 g0-0 L100'0 2888 00Tz | 康 革 
4 22 8°0 98 ET00'0 30°0 8T00°0 I9EE 时 "88 儿 加 
2 只 全 "0 6T3 9000°0 80°0 8T000 3 8660T LT Wf 
8 0 00T 02 89000 30°0 00'0 5 989 ST8 | 于 于 
9 98 "0 POL 6000°0 20°0 2T00°0 下 08 中 860 | 明寺 
自 Og 82°0 8TT 9000°0 0 中 9T00'0 再 9869 T°6T 六 二 
9 OF 95?0 2 9000°0 60°0 9T000 L089- 0L9T | 庶 噶 
4 又 名 '0 86 20000 80°0 3T00°0 岂 O89 06T | 站 不 
点 9 TT 08'0 29T 9000°0 20°0 F100°0 § T9883 8T8T 时 -区 
站 了 Og 22°0 eT 9000°0 0F0 TI00'9 9 0T98 SFTT | 誉 汕 
9 如 92°0 66 0T00'0 30°0 9700-0 8T68 296T | 骨节 
军 8 08 8’0 Tg ET00'0 60°0 9T00"0 节 9TT8 8 8T 异 
的 9 ge S20 ET 2000°0 60°0 9T00'0 ? beg 94'8T | 下 芝 
2 中 %'0 98 8000'0 oD FT00°0 88F ziiT | 近 所 
新 9 妇 9z0 90T 900070 60"0 5ST000 再 TI69 和 | 奖 并 
by 9 08 O0T 上 2200°0 9T-0 gTO00'0 € 人 ET 22'4 于 了 
9 9 95 080 ZET TI000 60°0 SI00'0 了 8098 98-9T 玉宇 普 
Ea 8 O08 Po"0 的 9T00°0 60°0 9100°0 再 8693 到 人 蝗 呈 
9 如 全 "0 0 O00°0 0T0 8T000 岂 9TOV 2 | 二 亚 
9 2 g2°0 OL 8T0070 60°0 ST00°0 P .05g 20' 民 | 毒 鲁 
g % Eta STF 8T00°0 80°0 9T00°0 F 6L68 69°6T | 
身 [2 iT'0 ST 9000°0 60°0 STo0’0O 3 S129 全" 名 站 全 
4 8 00°T 8T 8E000 8 00'0 § 086 0g5T | 来 兰 
4 2 00T 9 24200°0 Wr'0 ET00°0 © 80TT 356 间 于 
9 6TL So°0 BE82 oT00°0 20°0 B000°0 59TT TATT be'gT 图 习 
痊 VN/ 。 凌 V 寻 更 了 时 允 真 着 峭 YD (YH (%) 
束 队 时 对 避 坎 次 首开 圭 旺 轨 设 区 姨 可 前 具 籽 DYH 率 韦 于 | 习 器 
站 在 站 封地 366T 。 去 g68T 
Np 


幸 胖 泥 - 香 中 凡 于 至 准 腾 活 居 贩 圭 有 路 血 用 下 CY 考 866T C8 玫 蔡 


11.19 “人口 变 动情 况 抽样 调查 399 


二 .抽样 方法 

全 国 多 数 省 级 单位 采用 分 层 三 级 整 群 , 与 人 口 数 成 比例 的 贩 率 抽样 ， 
直 转 市 和 个 别 省 则 采用 分 层 二 级 整 群 , 与 人 口 数 成 比例 的 概率 抽样 . 

i， 抽样 框 

三 级 抽样 枢 中 移 抽 样 单元 分 别 为 ， 县 (市 .区 )， 乡 (镇 、 衍 道 ) 与 调查 
小 区 [村 ( 居 ) 民 小 组 或 自然 村 ]。 各 省 、 自治 区 、 直辖 市 可 报 据 1990 年 人 
局 普 查 行政 区 划 资 料 和 人 口 数 建立 各 级 抽样 框 , 可 按 实际 情况 进行 调整 ， 
但 应 保证 不 量 不 满 ， 第 三 级 抽样 单元 的 调查 小 区 可 以 是 村 ( 居 ) 民 小 组 或 
自然 村 , 人 数控 制 在 350 人 左右 .同时 调查 小 区 必须 是 一 个 完整 的 地 域 . 

2. 分 层 原由 和 方法 

备 省 .自治 区 .直辖 市 要 对 一 级 抽样 单元 县 (市 .区 ) 级 单位 进行 分 层 . 
分 层 原 则 应 尽 可 能 使 雇 内 各 单位 之 闻 人 口 变动 指标 差异 减少 ， 各 层 之 间 
差异 增 大 ， 各 地 区 应 根据 1990 年 人 后 普查 和 1992 年 人 户 变 动情 况 确定 
分 层 标 过 .由 于 各 地 区 大 口 变动 情况 同 本 地 区 农业 、 非 农业 天 口 比例 , 经 
洲 文 化 发 展 以 及 地 理 条 性 相关 , 故 县 级 单位 可 按 人 口 变动 情况 .经 济 标志 
《经 济 发 达 具 、 经 济 不 发 达 县 ) 或 地 形 标志 (出 区 .平原 . 丘 上 通 ) 等 分 层 . 

第 一 级 抽样 单元 分 层 后 ， 要 按 全 省 的 抽 祥 比 和 各 层 总 人 数 分 配 每 个 
层 调查 的 样本 量 - 

引 ， 各 级 抽样 抽取 样本 单元 数 的 确定 

省 级 单位 中 第 一 级 攻 立 比 户 插 定 为 35 和 % 左右 ( 详 见 天 和 .20)， 第 
二 级 搬 样 抽取 的 乡 级 单位 个 沼 根 据 层 内 调查 小 区 的 平均 规模 确定 。 原 则 
上 在 每 个 层 抽 中 的 县 级 单位 内 应 抽 8~4 个 乡 ( 镇 、 街 道 ) 每 个 乡 级 单位 
抽 3 个 调查 小 区 . 

4. 各 级 抽样 方法 - 

第 一 级 抽样 ， 娠 内 县 级 单位 按 1992 年 人 恨 出 生 率 高低 或 其 他 有 关 
标识 排队 , 并 按 排 列 的 序号 将 各 单位 人 口 累 计 ， 在 人 口 累计 栏 中 , 随机 等 
距 抽 取 县 级 单位 . 

第 二 级 抽样 ， 在 被 抽 中 的 县 级 单位 内 ， 将 各 乡 级 单位 也 按 与 人 口 出 
生 率 高 低 有 关 的 标识 排队 ， 在 排列 乡 级 单位 时 , 应 将 乡镇 .街道 分 类 排 
列 , 进行 隐 会 分 层 ， 并 按 排 列 序 号 将 各 单位 人 口 界 计 ， 在 人 口 累 计 栏 中 ， 
随机 等 距 地 确定 所 抽取 的 乡 级 单位 。 

第 三 级 抽样 ， 在 被 抽 中 的 乡 级 单位 内 , 各 调查 小 区 接地 址 码 排 队 , 用 
等 距 抽 样 抽 到 所 需要 的 调查 小 区 , 然后 调查 整个 小 区 的 人 号 
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三 、 人 口 出 生 率 , 琵 亡 案 、 自 然 增 长 座 和 总 人 口 数 的 估计 
各 省 . 自治 区 . 直辖 市 由 调查 样本 估计 本 地 区 人 口 变 动 主要 指标 时 ， 
人 入口 出 生 率 、 死 亡 率 、 自 然 增长 率 均 采用 祥 本 平均 值 . 具体 计算 公式 如 


下 * 





A 调查 年 出生 人 数 少 
人 口 出 生 率 ，0 有 R= -全 年 交 入 交 从 让 抵 ， ( 工 .87) 
人 口 死亡 率 ，ODR- -调查 生生 主人 晤 络 ， (11.88) 
人 局 自然 增长 率 - CBR 一 ODR, (11.89y 
1993 年 底 人 口 总 数 候 一 3 全 Wo。 《mo 为 1992 年 底 人 口 数 ). 


11.90) 

四 、 省 级 人 人 口 变动 愤 况 抽样 误差 计算 公式 
以 省 级 人 口 出 生 率 OBE 的 估计 羡 为 例 , 其 方差 估计 w( 朋 ) 按 以 下 公 
式 计算 : 
车 rr 与 ms 分 别 是 产 展 衬 县 《市 ) 样本 出 生 人 数 及 年 平均 人 数 ( 调 将 
点 为 年 初 人 口 与 年 末 人 口 的 平均 数 ), 工 是 全 省 层 数 , % 是 广 层 调查 的 县 


《市 ,市 区 ) 数 , 则 








到 -全 -二 二- (11.91) 


ov( 妈 ) 一 圳 [o(y) + ev(w) 一 2 外 gov(w, y)], (11.92) 








其 中 
0) 一 语言 入 (0 011.99) 
vt) = 局 ms,- 六 2 (ms — Ep), (11.94) 





人 wy 一 二 ) (Vs 一). 


让 


CovY(w, t= 襄 TS 高 志 i 
(11.95) 
而 多 与 下 分别 是 为 层 中 样本 县 (市 ) 中 药 平 均 出 生 人 数 与 调查 人 数 . 
在 上 6 免 的 技 信 和 度 下 ,在 的 允许 绝对 误差 如 与 相对 误差 分 别 沟 
=I.96wV3() ， 
”=— 8/ 
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评 注 

I) 人 口 变动 情况 抽样 调查 是 人 口 统计 的 一 个 重要 组 成 部 分 ， 全 国 
人 口 普查 只 能 间隔 许多 年 (我 国 规定 今后 每 隔 10 年 ) 进行 一 次 。 在 其 他 
年 份 为 及 时 摸 清 人 口 变 动情 况 只 有 搞 抽 样 调查 ， 我 国 自 1983 年 第 三 次 
人 [1 普查 后 , 每 年 1 月 1 月 进行 全 国人 口 变 动情 况 抽 祥 调 查 , 调查 前 一 年 
土 月 1 日 零 暑 至 辽 月 31 昌黎 时 人 口 出 生死 亡 . 迁 入 与 迁 出 情况 , 进而 
推算 年 底 时 的 人 口 总 数 . 此 项 调查 每 年 为 国家 提供 可 苇 的 人 口 信息 资料 ， 
供 制 定 国民 经 济 和 社会 发 展 计划 , 制定 人 口 政 策 服务 .十 多 年 来 , 此 项 再 
查 的 抽样 方案 几经 演变 , 逐渐 完善 。 上面 综述 的 是 1984 年 1 月 1 日 执行 
的 为 调查 1993 年 闻 人 口 变动 情况 的 最 新 方案 . 

根据 本 方案 ， 全 国 每 个 省 级 单位 (包括 自治 区 及 直辖 市 ) 都 需 进行 调 
查 , 而 且 分 别 进 行 数 据 处 理 . 整个 设计 是 基于 调查 不 仅 对 全 国 而 且 对 每 个 
省 级 单位 都 有 代表 性 意义 的 基础 上 的 ， 全 国 所 有 调查 点 (调查 小 区 ) 的 人 
口 数 约 为 116 万 人 , 总 的 抽样 比 约 为 1 名 对 金 国 的 设计 精度 , 按 人 口 出 
生 率 的 绝对 误差 限 为 0.3 生 (置信 和 度 95 多 )， 规 模 是 比较 大 的 ， 精 许 也 比 
较 高 调查 所 得 的 数据 应 是 合理 可 车 的 . 

2) 各 省 级 单位 的 抽样 多 数 采 用 了 分 层 三 阶 整 群 抽样 , 先 将 省 内 各 其 
(市 .市 区 ) 分 层 , 再 按 县 (市 ), 乡 ( 镇 ,街道 ) 与 调查 小 区 (村 或 居民 小 组 ) 三 
阶 抽样 , 对 手中 的 调查 小 区 进行 全 面 调 查 。 对 直辖 市 及 海南 .宁夏 则 省 掉 
对 县 (市 . 市 区 ) 这 一 阶 的 抽样 。 这 种 尽 可 能 降低 抽样 的 阶 数 以 及 缩小 群 
的 规模 对 减 小 抽样 误差 .提高 效率 都 是 有 好 处 的 。 另 外 , 本 例 中 前 两 阶 抽 
样 都 采用 按 人 口 数 成 比例 的 不 等 概率 系统 抽 桩 ， 而 单元 排列 按 人 口 出 生 
率 或 其 他 有 关 标 识 排队 , 这 桩 做 都 是 为 了 提高 估计 精 座 ， 事 实 上 , 本 方案 
中 取 的 设计 效应 deff 仅 为 1. 是 比较 低 的 ， 顺便 所 一 名 ， 内 于 此 项 调 
查 是 定期 进行 的 , 因此 deff 可 从 以 前 的 调查 中 获得 较 精 确 的 估计 . 

3) 样本 最 的 分 配 , 除 西藏 外 , 每 个 省 级 单位 抽取 3~5 万 人 ， 其 中 三 
个 人 口 最 多 的 省 四 川 .河南 ,山东 抽取 咯 多 ,为 5 万 人 ; 三 个 直辖 市 由 
于 总 人 口 数 不 是 太 多 , 又 只 是 二 阶 抽 样 , 放 抽 3 万 人 ， 其 他 省 (自治 区 ) 都 
是 4 万 人 . 这 与 要 求 每 个 省 级 单位 最 后 结果 都 有 意义 、 都 有 精度 要 求 这 
一 点 是 网 合 的 .西藏 自治 区 由 于 调查 过 于 困难 , 而 且 人 口 数 又 最 少 , 故 对 
它 放 宽 要 求 , 仅 所 68 的 县 级 单位 , 共 3000 八 , 这 些 考虑 都 是 从 实际 出 发 
的 . 
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省 级 单位 内 第 一 院 抽 县 (市 .市 区 ) 在 各 层 中 系 按 雍 饮 分 配 .。 第 一 ,二 
疮 抽样 夭 是 按 人 口 比 例 的 不 等 概率 抽样 ， 其 中 第 二 阶 抽 样 的 样本 青 即 县 
《市 、 市 区 ?内 揣 乡 (镇 .街道 ) 数 根据 层 内 调查 小 区 的 平均 规模 确定 ， 原则 
上 在 每 层 抽 中 的 县 级 单位 内 应 招 9 一 生 个 乡 级 单位 .第 三 阶 样本 量 是 固定 
的 2 个 调查 小 区 ， 小 区 的 平均 规模 是 350 人 左右 . 这 里 第 二 阶 抽样 的 样 
本 量 未 确定 .确切 地 说 : 县 级 单位 中 所 抽 的 乡 级 单位 数 应 与 当地 的 调查 
小 区 的 平均 规模 成 反比 , 即 若 调查 小 区 规模 小 , 就 应 多 抽 乡 级 单位 ， 在 此 
条 件 下 , 所 得 前 样本 是 自 加 权 的 . 由 于 这 条 件 在 实际 中 不 易 做 到 , 调查 小 
区 即使 在 一 个 县 级 单位 内 规模 也 不 可 能 做 到 完全 租 等 , 因此 , 根据 本 方案 
所 得 的 样本 在 省 内 只 可 能 是 近似 自 加 权 的 . 

4) 按 自 加 权 样 本 处 理 数据 ， 各 省 出 生 率 . 死亡 率 与 人 口 增长 率 及 人 
口 总 数 的 估计 公式 (11.87)~(11.91) 都 是 正确 的 ， 方 差 估计 v( 下 ) 的 公 
式 (11.92) 也 是 对 的 。 公 式 (11.93) 一 (1 工 -95) 是 考虑 到 层 内 各 县 市 的 抽 
样 是 相互 独立 的 , 因此 (例如 对 公式 (1.987 

oGD)= 坟 局 和 mw)- 访 v 入 wx) 


fi 在 

















= 澡 mwocoo- 以 -T 人 一” 

6》 本 案例 中 的 前 两 只 抽样 部 是 系统 抽样 , 而 实际 上 系统 拍 样 的 方 
估计 是 相当 困难 的 。 本 例 是 将 样本 简化 成 自 加 权 样 本 来 处 理 的 如 果 要 
更 精确 地 进行 处 理 , 峙 应 改变 前 两 阶 抽 洋 方 法 , 或 用 放 回 PPS 抽样 , 或 将 
层 再 缩小 ， 在 每 层 中 按 Brewer、Durhin 等 方法 抽取 2 个 单元 ， 在 这 种 
情况 下 , 就 可 以 精确 她 售 计 目 标量 及 其 方差 . 
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一 、 制 订 目 的 

国务 院 1983 年 8 月 批 转 的 国家 统计 局 < 关于 加 强 农村 统计 工作 等 问 
题 的 报告 >， 要 求 加 强 农村 抽样 调查 工作 ， 并 批准 增加 全 国 农村 抽样 调查 
队 的 编制 人 激 ， 为 了 更 好 地 发 挥 调查 队 的 作用 ， 提 高 农村 抽样 调查 资料 
的 质量 , 决定 将 原 有 农 产 量 抽样 调查 和 农 经 抽样 调查 两 套 调 查 县 合并 , 总 


9 本 节 正 文 节选 自 国家 统计 局 : 《农村 抽样 调查 网 点 抽 选 方案 (试行 )>，:984， 见 国家 统 
计 局 农村 社会 经 济 调查 总 队 编 : 农村 抽样 调查 基础 工作 规程 y 北京 科学 技术 出 版 社 ， 
36~d4, 
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规模 适当 扩大 , 县 以 下 两 套 网 点 分 询 抽 选 ， 为 此 ， 制 订 本 方案 ， 以 便 按照 
方案 要 求 和 规定 方法 , 抽 选 确定 农村 抽样 调查 网 点 , 开展 调查 工作 . 

二 、 抽 样 范围 

凡是 国家 统计 局 统一 要 求 组 织 的 农 产 量 、 农 村 住户 和 农村 经 济 抽 冬 
调查 , 应 以 省 .自治 区 直辖 市 为 范围 严格 按照 本 方案 提出 的 抽样 原则 , 抽 
样 育 法 、 抽 祥 数 昌 ， 抽 选 确定 调查 网 点 ， 以 保证 调查 工作 的 科学 性 和 可 靠 
性 . : 


三 、 调 查 内 容 

在 本 方案 调查 网 点 进行 调查 的 内 容 , 主要 有 以 下 各 项 : 

(DD 农 产 量 抽 样 调查 ， 各 个 主要 农事 季节 农作物 (当前 主要 调查 粮 
食 作 物 ) 的 面积 和 预计 .实测 产量 . 

(中 农村 住户 调查 ， 农 民 家 庭 的 生产 、 收 入 .分 配 、 积累、 消费 、 出 入 
和 购 入 商品 以 及 有 关 社 会 情况 等 的 调查 . 

(8) 农村 经 济 基本 情况 调查 ， 根 据 国家 研究 制定 政策 、 编 制 计划 的 
需要 , 组 织 的 一 次 性 专题 调查 . 

四 、 抽 样 原则 

农村 抽样 调查 网 点 芍 抽 选 ,必须 坚 畦 随机 原则 , 按照 科学 的 抽样 方法 
撕 选 只 的 调查 单位 , 应 对 农 产 量 调查 .农村 住户 酒 查 和 农村 经 济 基本 情 视 
调查 , 特别 是 粮食 产量 . 农民 收入 都 具有 充分 的 代表 性 ， 抽 选 出 来 的 农 产 
量 调查 的 村 以 上 调查 单位 , 农村 住户 润 查 爹 部 网 点 (包括 调查 户 ), 基本 固 
定 , 连续 观察， 

五 、 抽 桩 方法 和 抽样 数目 

根据 我 国 农村 和 农业 经 济 的 具体 情况 , 以 及 各 级 党 政 领导 前 需要 , 农 
村 抽样 调查 网 点 的 抽 选 , 采用 多 阶段 ,随机 起 点 .对 称 等 距 抽 样 方法 .一般 
画 为 省 抽 县 、 县 抽 乡 、 乡 抽 村 《名 自 然 村 .村民 小 组 ,下 同 )、 村 抽 地 块 或 农 
户 等 几 个 阶段 进行 。 各 哈 眉 抽 禅 方法 如 下 ; 

工 . 省 质 具 

QI》 抽样 数目。 冬 和 省 ,自治 区 .直辖 市 应 抽调 查 上 县 数 合计 ， 应 占 全 国 
总 县 数 的 365%% 左右 。 县 数 较 少 的 省 .自治 区 , 直 畏 市 可 大 于 这 一 比例 ; 县 
数 较 多 的 省 .自治 区 可 小 于 这 一 比例 . 

(3) 抽样 方法 ， 将 经 过 加 工整 理 的 全 省 各 县 ( 即 总 体 各 单位 ) 的 有 关 
标识 和 辅助 资料 , 按 高 低 顺 序 排 队 , 编制 排队 表 ( 即 抽样 框 )、 排 队 标 识 和 
得 助 资料 布下 列 两 称 ， 
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他 近 三 年 平均 每 公 质 粮食 产量 由 低 到 高 顺序 排队 , 以 粮食 作物 播种 
面积 为 辅助 资料 , 逐 单位 累计 , 按 规 定 县 数 讨 算 抽 样 距离 . 

加 近 三 年 平均 每 人 从 集体 分 配 收 入 由 低 到 高 顺序 排队 , 以 参加 分 配 
人 口 为 辅助 资料 , 逐 单位 依次 累计 , 按 规 定 县 数 计算 狂 样 距离 . 

这 两 种 标识 的 选择 , 要 根据 差异 程度 大 小 而 定 ， 哪 一 种 差异 程度 大 ， 
寻 以 哪 一 种 资料 作为 排队 标识 ， 排 队 表 (抽样 年 ) 编 制 完成 后 ， 即 进行 抽 
样 , 抽 选 时 , 先 计 竺 抽样 距离 , 然后 按 对 称 等 距 抽 样 方法 的 要 求 , 以 随机 起 
点 (第 一 组 距 内 的 任何 一 点 ) 开 始 , 按照 计算 的 距离 和 样本 单位 位 置 , 卸 选 
出 各 调查 县 . 

2. 县 以 下 调查 网 点 的 抽 选 

根据 调查 内 容 和 要 求 不 同 , 农 产 量 和 农村 和 住户 调查 分 别 进行 . 

CD 农 产 量 调查 

QD 朱 祥 阶段 ， 农 产量 调查 要 求 在 抽 中 调查 基 抽 选 村 进行 调查 。 上 其 
钵 抽 选 划分 阶段 , 可 以 先 抽 乡 ， 从 揣 中 乡 狂 选 村 有 条 件 的 也 可 以 由 县 直 
接 揪 选 衬 ， 

加 所 样 数目 : 

入 ,其 抽 乡 、 乡 再 拥 村 的 县 ， 每 个 调查 县 一 般 应 插 6 至 10 个 乡 。 每 
个 调查 乡 应 抽 的 村 数 可 根据 每 县 抽 乡 的 数量 多 少 而 决定 ， 一 般 每 乡 应 为 
3 至 反 个 村 , 从 而 保证 每 县 共 抽 18 至 30 个 村 . 

瑟 ,县 直接 抽取 村 的 ,一般 可 抽 16 至 20 个 村 .县 直接 抽 行 政 村 K 即 
衬 民 委员 会 , 下 同 ) 的 ,可 抽 8 至 芭 个 行政 村 ;行政 村 再 抽 村 ， 一 般 盾 3 
个 . 

轩 抽样 方 法 ， 

入: 县 抽 乡 时 ， 应 将 全 县 各 乡 的 近 三 年 每 公 硕 的 粮食 平均 产量 作为 
有 关 标 识 , 按 高 低 顺 序 淹 队 , 以 近 三 年 粮食 平均 播种 桓 积 作为 辅助 资料 , 按 
排队 顺序 依次 累计 , 制 成 排队 表 ( 摧 样 框 )。 然 后 按 规定 抽样 数目 , 以 对 称 
等 距 抽 样 方法 抽 选 确定 调查 乡 . 

忆 . 乡 抽 村 的 排队 标识 和 辅助 次 料 以 及 抽 选 方法 ,与 县 抽 乡 相同 . 

QG 有 条 件 的 地 区 , 由 县 直接 抽 村 , 或 由 县 描 行 政 村 , 再 执 村 时 所 用 菲 
队 资 料及 抽样 方法 , 也 与 县 抽 乡 相同 . 

田 村 内 农 产 量 调查 内 容 与 抽样 方式 ， 

入. 粮食 播种 面积 ， 在 抽 中 村 全 村 范围 内 进行 调查 ， 

于， 粮食 预计 产量 : 每 个 季节 调查 时 , 在 抽 中 村 内 核实 全 部 粮食 播种 
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面积 , 查 清 种 植 粮食 作物 的 田 卖 , 然后 逐 块 进行 犀 产 ; 或 从 调查 地 块 中 随 
机 抽取 切 至 基 个 小 面积 样本 用 查 标 数 料 方法 估算 产量 . 

Q. 粮食 实测 产量 ， 将 抽 中 村 欧 全 部 粮食 作物 地 块 ,， 按 调查 前 的 预 
计 每 公 硕 产量 高 低 排 队 ， 等 虹 抽 选 部 分 地 块 ; 北方 地 块 面积 较 大 的 , 每 个 
村 至 少 抽 ? 个 地 块 , 南方 地 其 而 积 较 小 的 ， 每 个 村 至 少 抽 做 块 ， 在 每 个 
调查 地 块 内 , 技 简 单 等 虐 抽 样 方法 抽 5 至 10 个 祥 本 进行 实 害 实测， 

已。 在 村 内 抽 选 农户 进行 粮食 产量 诅 查 的 , 必须 取得 地 块 的 预计 . 实 
测 产 量 资料 、 具 体 抽 户 办 法 是 : 将 每 户 全 部 调查 作物 地 块 估 产 , 然后 分 户 
计算 每 户 综合 单产 , 按 单产 高 低 排 队 ， 以 每 户 面积 合计 数 累 计 ， 采 用 随 酌 
起 点 对 称 等 距 朱 样 方法 抽取 区 户 , 在 调查 户 的 全 部 地 块 进行 调查 ， 在 调 
查 户 前 地 抉 上 进行 实 割 实测 油 查 时 , 可 以 整 拷 单 收 单打 , 也 可 以 用 简单 等 
距 抽 样 方 法 每 户 抽 所 个 以 上 禅 本 进行 实测 . 

忆 、 村 抽 地 抉 进行 农 产 量 调查 的 , 调查 地 块 不 匡 定 ,于 每 季节 调查 时 
临时 抽 选 ， 村 再 抽取 农户 , 在 农户 的 地 均 中 进行 农 产 量 调查 的 , 调查 户 也 
不 要 固定 . 

(2》 农村 住户 调查 
四 抽样 阶段 ， 县 以 下 一 般 分 两 阶段 进行 ， 即 调查 县 抽 村 ， 村 抽调 查 
户 。 如 县 内 村 数 较 多 .地 城 分 布 广 ， 不宜 直接 抽 村 的 , 可 以 实行 三 阶段 抽 
样 , 即 县 抽 乡 、 乡 抽 村 、 村 抽调 查 户 . 
四 质 样 数目 : 根据 人 口 比例 , 每 个 调查 县 的 调查 户 数 为 90 户 至 100 
户 . 调查 %0 户 以 下 的 县 , 每 个 村 调查 5 户 ; 调查 80 户 以 上 的 县 ， 每 个 村 
可 以 调 章 10 户 . 按 上 述 要 求 ， 县 直接 抽 村 的 调查 县 ， 每 县 应 抽 6~14 个 
村 ; 县 抽 乡 , 乡 抽 村 的 调查 县 , 每 县 应 抽 3~7 个 乡 , 每 个 乡 保 证 抽 2 个 村 . 
图 抽样 方法 ; 
入. 县 抽 村 或 县 抽 乡 ， 乡 再 抽 村 时 , 用 近 三 年 平均 每 人 分 配 收入 作为 
有 关 标 识 , 按 高 低 顺 序 排队 , 再 以 近 三 年 平均 分 本 人口 作为 辅助 列 料 进行 
黑 计 , 计算 抽 祥 距离 , 采用 随机 起 点 对 称 等 距 抽 样 方法 , 抽 选 确定 乡 或 村 . 
具体 抽 选 方法 与 省 朱 县 机 同 ， 
B. 村 抽 选 调查 户 ， 用 全 村 各 户 的 上 年 人 均 生 产 性 纯 收 入 排队 ， 全 
村 各 户 人 均 生 产 性 纯 收 入 要 采用 一 次 普查 取得 ， 它 包含 家 庭 经 营 得 到 的 
纯 收 入 、 和 集体 经 营 分 得 收入 、 联合 体 经 营 分 得 收入 等 三 个 部 分 , 用 全 户 人 
口 计算 人 均 生 产 性 纯 收 入 ， 村 抽 油 查 户 时 ， 不 用 畏 助 资料 (人 口 数 ) 计 算 
间距 ,而 用 规定 证 查 户 数 除 全 村 (组 、 臣 ) 户 数 计算 出 组 虐 。 采 用 随机 起 点 
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对 称 等 距 抽 样 方法 , 抽 选 确定 油 查 户 . 
《8) 农村 经 济 基本 情况 调查 
农村 经 济 基 本 情 视 调查 就 在 农村 住户 调查 所 在 的 各 抽 中 调查 乡 和 村 
中 进行 调查 . 
六 、 计 算 抽样 误差 
(1) 按 每 公顷 粮食 产量 或 按 收入 水 平 排队 ,分 层 ( 分 层 数 按 样 本 单位 
数 ) 计 算 层 方差 . 层 误 差 , 其 公式 为 : 
ACh 
7 














Te 
(2》 利用 分 层 误差 计算 各 阶段 误 兰 : 
一 阶 眉 误差 公式 
内 = 二 2 Nii 
二 阶段 误差 碚 、 三 阶段 误差 由 的 公式 局 邮 . 
(3) 计算 多 阶段 误 基 : 
， 帮 = 二 + 如 让 十 - 人 十 … 
其 中 : 。 为 第 一 盆 肛 拍 贞 第 下 笠 东单 位 
严 为 第 二 阶段 ， 平 沟 每 个 第 一 阶段 样本 半 位 抽出 的 第 二 阶段 样本 








单位 数 ; 
天 为 第 三 阶段 ， 平均 每 个 第 二 阶段 样本 单位 抽出 的 第 三 阶段 衬 本 
单位 数 - 
在 实际 计算 中 可 以 看 到 ， 第 三 阶段 以 后 , 虽然 还 有 误差 , 但 由 于 数量 





很 少 , 影响 已 在 大 , 所 以 可 以 省 睹 不 算 . 因而 计算 全 省 抽样 误差 , 可 以 只 计 
算 省 抽 县 , 县 抽 乡 , 乡 抽 村 三 级 , 要 求 误差 系数 控制 为 : 产量 在 2% 以 内 ， 
收入 在 3 以 和 内，. 各 县 参 沼 上 式 可 以 计算 本 县 的 抽样 误差 , 计算 收入 调 
查 的 全 品 抽 样 误差 , 按 县 抽 乡 , 乡 抽 村 , 村 抽 户 三 锯 计 算 , 计算 产量 调查 的 
全 县 抽样 误差 , 只 计算 县 抽 乡 , 多 抽 村 两 阶段 即 可 . 

(多 计算 抽样 误差 系数 ，“ 

2x ~ He/ 全 省 平均 每 公顷 产量 (或 全 省 平均 履 入 水 平 )。 

七 、 代 表 性 检查 

人 省 抽 县 ， 调查 县 抽出 以 后 必须 进行 代表 性 检查 ， 检查 的 方法 
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是 : 以 拍 中 调查 县 的 平均 标识 值 与 总 体 相 应 标识 值 进 行 比较 , 单产 水 平 出 
入 不 超过 23%, 收入 水 平 不 超过 8% 前 为 有 代表 性 . 

(2) 县 抽 乡 , 乡 抽 村 : 检查 方法 与 省 揪 具 相同 . 

(3) 代表 性 检查 所 内 的 资料 , 应 为 同一 口径 的 全 面 统 计 资 料 . 

八 、 资 料 蓝 理 

农 产 量 调 查 资 料 的 推算 方法 用 篇 单 算 术 平 均 数 法 ， 以 各 调查 单位 的 
调查 结果 推算 总 体 调查 结果 时 , 按 方案 规定 方法 进行 . 

农村 住户 调查 和 农村 经 济 基本 情况 调查 资料 的 汇总 整理 ， 按 方案 规 





定 进行 . 
九 、 各 级 调查 单位 的 抽 选 、 确 定 、 蛮 动 . 调整 的 审批 程序 ( 昨 ) 
评注 





我 国 农村 抽样 调查 (包括 农 产 量 抽样 调查 、 农 村 住户 调查 与 农村 
经 济 基本 情况 调查 等 三 项 经 常 性 的 调查 以 及 其 他 一 次 性 的 专项 调查 ) 是 
出 国家 统计 局 农村 社会 经 济 调查 总 队 及 其 名 省 队 负 责 操 作 的 ， 对 每 个 省 
《自治 区 、 直辖 市 ) 用 的 都 是 一 套 网 点 ， 即 按 本 方 娄 抽取 的 县 .( 乡 )、 村 、 农 
户 ( 或 地 块 ) 几 级 网 点 ， 抽 选 出 来 的 农 产 量 调查 的 村 以 上 调查 单位 ， 农 村 
住户 调查 全 部 网 点 (包括 调查 户 ) 基 本 固定 ， 连 续 观 察 . 之 所 以 采用 固定 
网 点 的 办 法 , 是 因为 实施 调查 的 农 调 队 的 建制 是 固定 的 , 这 固然 带 来 不 少 
上 的 便利 条 件 , 也 由 此 造成 样 木 难以 轮换 的 缺点 ， 
2) 本 方案 中 的 各 阶 抽样 均 采 用 按 有 关 标 识 排队 的 随机 起 点 对 称 等 
距 拥 样 .首先 将 各 院 抽样 单元 (县 .村 等 ) 按 1981~1983 三 年 间 的 平均 每 公 
质 产 县 (或 每 人 从 集体 分 配 收入 ) 由 低 到 高 的 顺序 排队 ,以 粮食 作物 播种 面 
积 ( 或 参加 分 配 的 人 口 数 ) 为 铺 助 资料 进行 不 等 概率 对 称 系统 抽样 ， 正 如 
我 们 在 对 前 几 个 案例 评注 中 曾经 指出 的 那样 , 按 有 关 标 识 排队 , 然后 采用 
对 称 系统 (等 距 ) 抽 样 将 大 大 提高 估计 其 的 精度 , 减少 抽样 误差 ; 而 按 一 定 
的 辅助 变量 进行 不 等 概率 抽样 不 仅 可 进一步 提高 精度 ， 世 保证 了 最 后 获 
得 的 料 本 是 自 加 权 的 (在 一 系列 条 人 竹 保证 下 }) 从 而 简化 数据 处 理工 作 . 在 
这 两 点 上 , 本 方案 是 相当 成 功 的 , 也 是 它 的 最 显著 的 特 虞 ， 

引 但 本 方案 中 各 上 阶 抽 样 样 本 最 的 确定 都 有 一 定 程度 的 弹性 (允许 在 
一 定 范围 内 选取 ), 因 放 实际 上 不 能 保证 最 后 获得 的 样本 是 自 加 权 的 ， 宣 
为 严重 的 是 : 由 于 调 林 样本 在 一 次 确定 ,连续 多 年 观察 的 , 而 在 这 些 年 中 ， 
由 名单 元 作物 播种 面积 《或 参加 分 配 的 入 扎 数 ) 都 会 有 相当 程度 的 恋 
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化 , 而 这 些 变化 不 可 能 是 一 致 的 (特别 对 播种 面积 ) 因此 按 本 方案 规定 的 
数据 处 理 ( 简 单 算术 平均 法 ) 必 然 会 带 来 偏 倚 其 偏 剧 的 程度 随 着 使 用 时 
疗 会 愈 来 您 大 另 一 方面 鉴于 本 方案 所 用 的 抽样 是 按 有 关 标 识 排队 的 
不 等 概率 对 称 系统 抽 拜 , 抽样 误差 的 信 计 十 分 复杂 , 不 能 技 本 方案 给 出 的 
一 般 多 阶 ( 等 概率 ) 抽 祥 的 公式 、 不 过 由 于 播种 面积 的 变化 带 来 的 估计 去 
僻 估 可 采用 依 束 于 抽样 时 ( 即 1981~1988 年 间 ) 的 播种 面积 的 Horvitz- 
Thompson 估计 .尽管 随 着 时 间 前 推 延 , 抽样 误差 会 鳃 来 念 大 , 但 这 样 做 
可 昼 使 佑 计量 基本 上 保持 无 偏 .至 于 按 本 方案 获得 估计 量 前 实际 方 差 , 
则 可 用 第 8 章 或 第 9 章 中 所 还 的 方法 计算 . 不 过 无 论 用 哪 一 种 方法 ， 都 
将 十 十 分 复杂 的 . 

4) 连续 多 年 使 用 同一 套 调 查 网 点 ， 除 了 有 前 面 指 出 的 缺陷 外 ， 还 会 
使 样本 逐渐 “疲劳 ”从 而 严重 地 影响 调查 的 质量 ， 增 加 调查 误差 ,为 此 图 
家 统计 局 在 1989 年 又 提出 < 农村 抽样 调查 样本 轮换 方案 试行»”， 鉴于 
农 调 队 的 建制 的 原因 ,样本 轮换 不 对 县 进行 轮换 ,只 对 村 户 ( 或 乡 、 村 、 
户 ) 逐 级 实行 轮换 .从 1990 年 起 用 新 抽 选 的 调查 户 震 代 原 有 的 全 部 调查 
户 , 然后 每 年 轮换 一 次 , 每 次 轮换 调查 户 的 35% 左右 , 4 年 内 轮换 一 遍 ; 
新 样本 的 抽样 方法 大 和 体 上 与 原来 的 网 点 抽 选 方案 神 同 . 不同 点 是 原 方案 
农 产 量 调查 与 农村 住户 调查 在 县 之 下 是 两 套 网 点 ， 而 新 方案 则 到 村 为 止 
都 采用 同一 套 网 点 ， 在 县 内 抽 村 时 采用 先 抽 选 一 套 大 样本 前 调查 村 ， 然 
后 在 大 样本 调查 村 肉 ， 以 同样 前 抽 选 方法 抽 选 小 样本 的 调查 村 . 月 标 量 
估 讨 仍 采 用 桩 本 平均 数 , 抽样 误差 也 仍 采 用 二 阶 (或 三 阶 ) 盾 样 , 每 阶 都 是 
简单 随机 抽 祥 的 公式 ， 因 此 前 而 指出 的 问题 依然 存在 . 在 这 方面 我 国 农 
村 抽样 调查 还 有 不 少 需要 改进 前 地 方 . 





§11.12 人 体 测 量 抽样 方案 ” 


1985~1937 年 间 ，, 我 们 为 国家 标准 局 、 中 国 服装 工业 总 公司 与 中 国 
人 下 民 解放 军 癌 后 军需 装备 研究 所 等 单位 ， 设 计 了 几 个 有 关 人 的 林 型 尺寸 
测量 的 抽样 方案 []、[3]、[3]。 在 这 些 抽样 调查 方案 中 , 所 需 估计 的 目标 
重 均 不 是 一 般 抽 祥 调 查 项 目 中 所 遇 到 揭 ， 在 许 示 文献 中 经 过 充分 研究 讨 
论 的 那些 总 体 参 数 , 例如 总 体 总 和 、 平 均 数 、 比 例 或 两 个 总 数 之 比值 等 . 例 


*) 本 节 正文 节选 自 汉 士 诸 、 孙 山 泽 、 毕 健 < 人 体 测量 抽样 方案 目标 量 的 估计 及 样本 其 的 确 
定 >, 原 载 < 应 用 概率 统计 >,1989, 第 5 卷 第 4 期 。350~357， 
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虹 在 为 制定 服装 号 型 系列 标准 为 目的 的 抽样 , 人 体 某 些 尺寸 的 平均 数 , 如 
平均 身高 、 平 均 胶 轩 或 压力 就 不 具有 特别 重要 的 意义 即便 这 些 量 的 估 
计 能 精确 到 0.001 mm, 与 制定 服装 号 型 系列 标准 , 使 它 能 满足 多 数 人 的 
需要 并 无 直接 联系 在 这 些 问 题 中 ， 我 们 更 感 兴 趣 的 是 给 出 人 体 的 各 种 
尺寸 的 分 布 情况 ， 需要 和 估计 的 目标 量 主要 以 这 些 尺 十 的 分 位 数 了。 的 形 
式 出 现 . 

为 达到 上 述 目 的 , 考虑 到 我 国人 口 分 布 的 现状 以 及 人 体 测 量 的 特点 ， 
在 制定 抽样 方案 时 我 们 对 所 考虑 的 总 体 进行 必要 的 划分 ， 对 每 个 子 总 体 
《例如 成 年 男子 , 成 年 女子 .少男 .少女 ; 将 校 级 军官 、 慰 级 军 家 与 士兵 等 
帮 采 用 分 层 整 群 抽 样 (但 针对 不 同 艺 总 体 的 情况 方案 都 不 尽 胡同, 例如 对 
男士 兵 也 采用 了 系统 抽 祥 )， 我 们 对 不 同 的 调查 方案 , 考虑 了 实际 任务 的 
需要 , 给 出 对 分 位 数 估计 精度 的 所 法 , 研究 了 精度 与 样 李 量 之 间 的 关系 ， 
现 将 在 制定 这 些 方案 时 ， 对 上 述 间 题 的 各 种 考虑 及 解决 方法 综合 报道 如 
下 : 

一 、 层 的 划分 及 群 的 组 成 

采用 分 层 整 群 抽 样 是 由 于 人 体 测 最 工作 本 身 的 特点 决定 的 .制定 一 
个 效率 高 的 人 体 测 量 抽样 方案 ， 必 须 考 串 到 影响 人 的 体 形 尺寸 各 个 方面 
的 特点 , 诸如 地 域 .年 龄 .职业 等 的 影响 , 同时 考 志 到 测量 工作 的 方便 ， 对 
此 , 我 们 作 了 以 下 的 处 理 ; 

工 ， 按 地 域 分 层 

中 国 靶 土 辽 阔 , 人 口 众多 , 且 和 传统 地 居住 稳定 ， 人 员 流动 较 少 . 多 种 
历史 资料 表明， 中 国人 人 体 尺 十 与 地 域 的 关系 极为 密切 . 我 们 参考 了 有 
关 资 料 , 按 人 类 学 的 观点 将 除 台 湾 以 外 的 全 国 各 省 、 市 、 自 治 区 秀成 六 个 
自然 区 域 ， 在 同一 自然 区 域 中 , 有 的 由 于 地 理气 辟 、 站 传 等 因素 的 影响 ， 
老 别 仍 较 大 ， 因 此 在 存 些 方案 (例如 上 中] ) 中 , 我 们 再 进一步 根据 几 种 历史 
资料 中 各 省 成 年 人 平均 身高 的 资料 ， 划 分 为 高 .中 上 .中 下 及 矮 四 档 ， 因 
此 最 终 全 国 各 省 市、 自治区 被 划分 成 12 个 层 , 如 表 其 -21 所 示 、 抽 样 时 
按 工 作 方便 , 在 层 内 选取 一 个 或 几 个 省 ,市 ,自治 区 进行 测量 。， 而 为 了 今 
后 数据 分 析 前 方便 , 例如 能 采用 样本 分 位 数 估 计 总 体 分 位 数 等 , 在 各 层 中 
采用 按 人 口 总 数 比 例 分 配 的 方法 . 

2. 群 的 组 成 

由 于 人 什 尺 寸 测量 是 件 技术 性 较 强 的 工作 , 同时 测量 的 项 目 也 较 多 ， 
例如 项 目 [11, 多 达 74 项 ， 为 使 工作 方便 ， 我 们 一 般 的 在 层 内 采用 随机 整 
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下 和- 驱 中 国人 体型 的 地 域 划分 
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群 抽样 。 在 群 的 拍 取 过 程 中 ,特别 要 注意 的 是 群 内 个 体 的 年 龄 结 愧 。 次 
料 表 明 , 不 同年 认 段 的 人 体型 尺寸 有 明显 的 差异 ， 但 考虑 到 实地 测 景 的 
方便 , 不 可 能 做 到 分 年 龄 段 证 查 测量 , 否则 ， 很 难保 证 抽样 的 随机 性 、 
此 抽样 方案 规定 . 整 群 样本 应 是 一 个 自然 的 群体 单位 , 如 一 个 独立 的 实际 
单位 , 或 一 个 单位 中 的 一 个 或 几 个 车 间或 班组 人数 捅 好 达到 方案 规定 
的 群 体 大小 (多 许 有 几 个 人 的 误差 )， 如 和 免 在 一 个 较 大 单位 中 人 为 犯 选 被 
测 人 员 ， 或 听 征 自流 愿意 测试 的 人 才 测 ， 以 凑 驶 规定 的 群体 大 小 ， 这 样 
做 的 是 的 是 尽量 使 被 测 样本 中 各 年 龄 段 的 结构 与 总 体 中 相应 结构 基本 一 
致 ， 必 要 财 可 通过 适当 选择 样本 群 以 调整 样本 中 的 年 龄 结构 .例如 当中 、 
老年 人 的 被 测 人 数 不 足 时 ， 可 有 意 选择 一 些 历 史 较 长 、 老 同志 较 多 的 单 
位 , 例如 多 抽 一 些 办 公 室 , 科研 单位 等 。 上 面 提 到 入 体 尺 寸 与 地 域 的 关系 
极为 密切 ， 这 就 涉及 被 测 人 员 的 籍贯 问题 ,由 于 这 个 问题 本 身 比 较 复 杂 ， 
且 因 为 我 们 测量 主权 不 其 从 人 类 学 或 吐 传 学 观点 进行 祥 究 ， 因 此 我 们 对 
于 被 测 大 员 前 籍贯 问题 不 予 考 处 ( 仅 加 以 记录 ). 允许 有 非 本 省 籍 芍 人 员 、 
但 有 一 种 情况 必须 排除 , 即 当 某 单位 是 从 不 属于 本 层 的 外 地 迁移 来 时 , 则 
不 能 选 作 为 样本 群 . 

至 于 职业 或 工种 对 人 体 体形 尺寸 的 影响 , 试 调查 时 发 现 , 从 事 不 局 职 
业 人 人 员 前 体形 尺寸 并 无 明显 的 差异 ， 涯 此 我 们 的 抽样 方案 只 规定 不 抽 测 
对 体形 尺寸 有 特殊 要 求 的 单位 。 对 不 网 行业 与 职业 则 不 作 这 分 . 
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3. 关于 群 的 大 小 
众 所 局 知 , 整 群 抽样 的 设计 效应 de 全 (design effeet) 为 
def 必 1+( 卫 一 1)p， (11.96) 
其 中 再 是 平均 群体 大 小 ，p 是 群 内 相关 系数 . 关于 后 者 ,我 们 根据 四 川 
省 试 测 数 据 计 算得 到 的 群 间 均 方 吕 与 群 内 均 方 s%( 均 按 通常 的 方差 分 析 
表 计 算 ) 以 及 当时 实测 的 平均 群体 大 小 政 ， 由 下 式 即 可 估计 p 值 : 
7 (11.97) 
别 十 (更 一 1)S5 
试 测 时 的 严 一 4124, 计算 结果 为 六 = 0.00775.。 为 提高 效率 ， 同 时 也 为 测 
量 的 方便 , 减少 因 测 试 人 抽 妆 劳 引 起 测量 误差 的 增 大 ， 我 们 取 寻 ~80, 即 、 
一 - 个 测量 组 一 天 的 工作 量 . 
、 分 位 数 估计 量 的 相对 精度 及 具体 估计 方法 
工 - 1 总体 分 位 数 估计 量 精度 的 得法 
前 已 指出 ,我们 估计 的 目标 量 为 总 体 的 各 种 尺寸 的 分 位 数 。 总 体 基 
个 到 才 生 的 如 分 位 数 z(0<Pp<1) 即 是 满足 下 式 的 量 : 
P{r<ry}— Pp. (11.98) 
应 用 中 较 重要 的 分 位 数 有 gogm om ,10 Yao， 攻 so， ao 六 ao 向 95 
及 zz 等 , 其 中 .5s0 即 是 中 位 数 . 
根据 所 测 样本 , 可 按 一 定 方法 对 zs 进行 估计 ， 记 人 久 计 值 为 分。 对 一 
般 的 和信 计量 如 精度 的 提 法 有 绝对 精度 与 相对 精度 两 种 ， 这 两 种 精度 都 
是 在 一 定 的 概率 意义 以 下 ,例如 对 于 给 定 的 置信 和 度 95 史 ,绝对 精度 4 即 
是 满足 下 式 的 量 : 








P{I6 -9 <4}=0.95, {11.99) 
而 通常 前 相对 精度 , 即 是 指 满 足下 式 的 7, 
PI er =0.95. 011.100) 


以 上 两 式 中 的 9 都 是 被 悄 计 参数 的 真 值 ， 按 这 两 种 定义 不 易 确定 精度 与 
样本 基 的 关系 , 而 且 也 不 一 定 满足 我 们 的 实际 需要 、 我 们 提出 分 位 数 佑 
计量 双 的 精度 定义 如 下 ; 对 一 个 很 小 的 数 8( 例 如 1%), 使 满足 
Pf{gp eh ts+a} — 0.95, (11.101) 
以 下 我 们 称 & 为 6, 的 (相对 ) 精 度 。 请 注意 与 (11.100) 式 中 的 + 相 区 捆 ， 
2. ws 的 估计 方法 . 
按照 (11.101) 的 定义 , 对 于 局 一 禅 水 量 , 对 不 间 和 的 p 值 , 分 位 数 向 于 
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能 达到 的 实际 精度 不 同 ( 详 见 下 段 中 的 讨论 )， 此 外 , 精度 还 因 rs 的 估计 
方法 的 不 同 而 有 差异 . 由 于 人 和 你 体 形 尺 寸 近 仙 遵从 正 态 分 布 .因此 在 个 
计 总 体 和 分 位 数 时 有 两 种 方法 可 以 采用 ， 一 种 是 用 样本 分 位 数 % 估计 zz 
另 一 种 是 先 从 样本 计算 平均 数 3 及 样本 标准 差 s， 以 

人 一 必 十 tp (11 .102) 


估计 zs, 其 中 wy 为 标准 正 访 分 布 史 的 分 位 数 ， 

由 于 总 体 指标 的 实际 分 布 与 正 态 分 布 一 般 有 一 定 差 虱 ， 特 别 是 在 分 
布 的 两 端 , 此 外 理论 计算 表明 (说 见 下 段 ) 对 于 较 小 的 jp 入 (例如 p<<0.2) 
或 较 大 的 多 值 (例如 p>0.8)， 以 第 一 种 估计 方法 精度 较 高 ， 而 对 中 间 的 
多 值 640.3<2p<0.8)， 以 第 二 种 估计 方法 精度 较 高 。 因此 我 们 采用 x; 的 
估计 量 2 为 ; 

FE， 当 p=0.5 
二 当 0<p<0.2 或 0.8<p<1s 
op)Hpt+ [lo(p)]o, O02<p<0.5 或 0.5<p<1. 
(11.108) 
其 中 w(p) 是 适当 选取 的 权 , 可 与 加 有 关 《0<<w(g) 所 让。 当 p 秆 接近 于 
0.2 或 0.8 时 , 取 w(p) 接近 于 1 而 当 多 接近 于 0.5 时 , 取 a(2) 接近 于 
0. 

三 、 精 度 与 样本 量 的 关系 

工 用 天 估计 wo 时 , 不 同 精度 9 亡 需 简单 随机 样本 的 样本 量 

估计 量 的 精度 与 样本 量 直 接 有 关 , 精度 要 求 您 高 , 折 需 的 样本 量 就 
您 大 .此 外 , 对 精度 的 不 同 提 法 , 计算 样本 量 的 方法 也 不 尽 相间 ， 这 里 我 
们 针对 上 面 第 二 段 中 提出 的 精度 定义 , 先导 出 当 用 互 估 计 zx.so 时 , 简单 随 
机 抽 祥 的 祥 本 量 m 与 给 定 精度 4 之 间 的 关系 ， 

设 s 的 分 布 遵从 丈 (mm om)， zo0.5 一 BCE，o?*/r)， 放 
p{ oe 1.90 <i et1.96 0.95. (11.104) 


Vn 
根据 ( 坟 .101) 式 对 9 的 定义 , % 应 满足 








wm.s0—1.96 J V50~8 


及 .0+1.96 二- .a0+4, 


鉴于 正 态 分 布 的 对 称 人 性 , 对 于 给 定 的 如 值 , 上 两 式 确定 的 n 相 等, 即 为 
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"| 1.96 Tf 党 " C11.105) 





V0+d— TH.HO U0+G 


1.96 \? | EE 
例如 给 定 9 一 1% 时 ，n~ (二 07)】 一 6118. 对 于 不 同 的 < 值 , 所 需 的 


% 值 如 天 了 .22 所 示 . 


表 和 L. 跑 用 估计 2s 对 ,不同 的 精 记 所 需 的 简单 殖 机 抽样 的 样本 展 


1 12 1 14 15 16 7 18 








给 24457 6113 5052 4245 3617 3118 2716 2387 2114 1886 





2. 用 各 估计 ws 时 ,不同 加 入 实际 达到 的 精度 
当 用 简单 随机 样本 的 分 位 数 2 估计 zs 时 , 众所周知 ,Ss 的 渐 近 分 布 





为 
万 fo PT 一 P)》 


np us) /7 
其 中 p(*》 是 标准 正 态 分 布 的 密度 函数， 下面 我 们 推导 对 于 给 定 的 nn 与 
p, 当 用 ws 估计 zo 时 ,实际 能 达到 的 精度 . 
由 人 HL.106) 式 , 当 于 天时, 对 于 外 多 的 置信 和 度 ， 
上 二 985 Vp) 
VR Pl) 
per— ws 1.96 VpU-p) 


TV pe 


(11.106) 


— zprar, 








从 而 
1,96 Mp(L-p) = (11.107) 


Wr Wt nm gp) 


或 根据 { 世 .105) 式 ,有 
MIP). (11.108) 


pra — Wp -Fs0+E — 
二 1 ple 


由 此 对 给 定 的 & (或 %) 以 及 p, 可 计算 四 值 ， 当 9 分别 为 1% 与 .5 党 
时 , 对 不 同 的 名 值 , 四 秆 如 表 坟 -28 所 示 ， 
表 代 .好 当 4-1% 与 4=1.5% 时 不 同 p 什 节 , 实 际 达 到 的 精 讼 "(单位 6》 


1 2.5 5 10 20 20 40 50 
D0) (9 TD C5). (0) i180) 7 (70) i001 








1% 时 的 a* |0.223 0.366 0.528 0.781 0.988 1.139 1.235 1.253 
8 一 1.595 时 的 a* | 0.317 0.532 O767. 1.032 1-470 1.701 1.33 .1.880 
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在 [条 中 我 们 曾 列 出 对 不 间 的 2 值 = 8B%/6 的 近似 值 ， 实 际 上 , 这 个 
值 对 不 同 的 2 值 并 不 等 于 常数 , 但 此 值 变化 很 小 、 例 如 根据 表 工 .33, 我 
们 有 6*/QkG==1%, 王 .5 多 ) 值 如 表 十 .24. 
表 11.8 当 g=1% 及 1.5955 时 的 /9 值 








ob) 1 2.5 五 10 30 30 40 50 
P76} C98) (C97T.5) C95) (90) 30) (70) (60) 
Ar/0.01 D.2228 0.8661 0.5228 0.7314 0-9875 1.1387 1.2350 1.2533 


GZ0.015 0.2135 0.3544 0.-5116 0.7215， 0.9800 1.1837 1.2204 工 .2531 





再 如 对 一 0.50, 及 不 同 的 一 4"/9 的 值 如 表 工 .25. 


玫 握 .点 p=0.5 时 =-d*/8 的 值 





i] 1 1.5 2 5 10 





cfd 1.2583 1.2581 1.2580 1.2514 工 -2456 





考虑 到 实际 使 用 ， 可 以 将 上 -~ @/E& 逝 似 当 作为 仅 是 罗 前 次 数 ， 由 表 
并 .28 知 , 当 取 8 一 1% 时 , 当 用 全 w 一 和 os 估计 go 时 , 实际 达到 的 精度 为 
0.533 多 ,也 即 

P{g.097< Hn< to05823} — 0 % . 

由 此 可 见 , 当 我 们 用 ( 工 .105) 式 确定 简单 随机 样本 量 , 用 (全 .103) 式 
估 证 徊 时 ,对 9 一 0.5 2<0.3 及 p 之 0.8, zt 的 实际 糖度 均 在 8 之 内 ; 而 
对 0.2<p<0.5 或 0.5<p<0.8， 只 要 适当 选取 权 wm(p), Zt 的 精度 奶 接 
近 于 & 的 水 平 . 

3- 整 群 抽样 的 样本 量 

出 ( 世 :105) 式 确定 的 样本 量 m” 仅 适用 于 简单 随机 抽样 或 接 比 例 分 本 
的 分 层 随机 抽样 , 对 于 整 群 随机 抽样 , 根据 (11.96) 式 , 祥 本 量 wr 应 为 

wn:def—n[1i--(BH—1)p]. C11.109) 
例如 当 要 求 8 一 1%,， 有 一 80,，p 一 和 9.00775 时 ， 
n=6119x [1+ (80—1) x0.00775] ~~9856. 

在 实际 辣 题 中 , 考 虚 到 测试 记录 可 能 出 现 的 错误 以 及 其 他 原因 , 在 数 
据 处 理 时 , 可 能 噜 除 一 部 分 数据 , 因此 我 们 通常 在 (也 L-109) 式 的 基础 上 增 
加 10% 左右 的 余 量 . 例如 在 [1] 中 , 方案 规定 对 成 年 男子 及 女子 两 个 子 
总 栖 , 分 别 测量 11000 人 . 

四、 方案 所 能 达到 的 绝对 精度 
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在 上 有 段 中 给 出 了 相对 精度 & 与 样本 量 或 n' 的 关系 . 本 上段 讨论 对 于 
一 个 已 制定 的 抽样 方案 ( 即 及 % 或 (mw') 已 给 定 )， 5 所 能 达到 的 绝对 粮 
度 4 
根据 ( 基 .99) 式 ,6s 的 绝对 精度 4 满足 (在 亚信 和 度 为 0.95 下 ); 
P{|Zs—zp| < =0.95. (11.110) 
4 的 实际 值 不 仅 与 “有关, 而 且 与 4 的 标准 差 9 有 关 , 当然 也 与 的 
估计 方法 有 关 ， 对 于 中 位 数 ms 一 此; 我 们 是 用 z 来 合计, 此 时 


4=1.96— 2 . (11.111} 
~ 
车 用 样本 分 位 数 zs 估计 zp， 则 4 的 计算 公式 为 ( 当 n 大 时 ) 
_1.960 ww 一 六) 2 
4 一 J pty 《11.112) 
(1.111)、{11.113) 琴 式 中 的 o, 一 规 用 历史 资料 或 试 调查 资料 所 奖 





得 的 估计 时 代替 . 

下 面 我 们 以 某 省 女性 总 体 为 例 ; 给 出 几 个 体形 尺 二 指标 的 绝对 精度 ， 
该 方案 的 相对 精度 8 二 1.5 必 , 按 简 单 随机 抽样 的 样本 量 根据 表 工 -22 为 
Rn 一 2716. 表 二 .26 给 出 了 体高 , 网 围 、 及 腰 国 的 中 位 数 zx.so，%.20( 或 3.80)， 
zo.i( 或 wo.35) 的 估计 量 所 能 达到 的 绝对 精度 . 


表 寻 .好 某 省 女 狂 总 体 抽样 方案 体 识 . 胸 围 及 腰围 分 位 数 估计 的 绝对 精度 4 

















浏 量 指标 2 」 总体 标准 差 e 起 8 的 二 击 3 的 4 .os 的 4 
体高 4.97 Cm OQ.187 em 0.267.em 0.395cm 
胸围 二 .90 cm D.18340m 0.263 em 0.389 cm 
腰围 6.TI3cm 0.281em 0.3296m 0.487 om 


从 表 二 -26 中 的 数值 可 看 出 , 绝对 精度 也 能 满足 实际 需要 , 其 他 体形 
款 的 标准 差 一 般 比 这 三 个 指标 的 标准 差 都 要 小 ， 因 此 绝对 精度 更 高 . 
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评 注 

1) 与 前 而 十 个 案例 不 同 , 本 案例 讨论 的 需 钻 计 的 总 体 指标 是 分 位 数 
到 ,在 人 体 测量 抽样 时 , 这 是 非常 现实 的 . 这 是 因为 人 体 测 量 的 目的 主要 
是 用 来 制订 诸如 服装 号 型 标准 以 及 与 人 体 工交 有关 的 各 种 标准 .此 时 震 
要 售 计 的 是 人 体 各 种 尺寸 的 分 位 数 , 而 非 平均 数 . 

由 于 估计 对 象 不 同 ， 估 计 精 度 的 提 法 也 会 有 所 不 同 。 本 案例 中 我 们 
讨论 前 既 非 一 般 意 义 的 绝对 误差， 也 非 通 常 意义 的 相册 误差 ， 而 是 一 种 
与 分 位 数 定义 有 关 的 另 一 种 嘉义 的 相对 误差 ， 即 公式 ( 刀 .101) 所 定义 的 
a. 








多 本 例 用 的 拥 样 方法 是 分 层 整 群 抽样 ， 按 人 类 学 标准 将 全 国 各 省 
自治区、 直辖 市 ) 分 为 6 个 自然 区 域 , 并 以 此 为 大 层 . 层 内 以 每 人 的 工作 
《学 习 ) 单位 作为 自然 群体 〔〈 作 适当 调整 使 其 成 为 等 大 小 的 ) 进行 整 群 抽 
样 ， 这 也 是 出 于 人 体 测量 的 实际 过 程 所 决定 的 .不 过 对 群 的 抽取 事实 上 
很 难 人 向 到 严格 随机 的 ， 因 为 难于 获得 对 群 的 拍 样 杠 ， 整 群 抽样 的 优点 之 
一 媳 可 用 公式 比较 精确 地 售 计 de 意 ， 只 要 知道 群 内 相关 po 即 可 .而 后 者 
通过 试 调查 ,可 用 方差 分 析 计 算得 到 .这样 一 巨 计算 出 简单 随 宙 抽样 所 
需 的 祥 本 量 ， 即 可 得 到 同样 精度 下 整 群 抽样 所 需 的 样本 量 . 

3) 本 案 讽 所 用 的 对 分 位 数 的 估计 需要 叙 定 总 体 分 布 是 正 态 分 布 的 
或 至 少 要 是 对 称 分 布 的 . 事实 上 , 作为 一 个 自然 区 城内 的 人 和 群 各 人 体 尺 十 
绝 大 多 数 都 服从 正 态 分 布 ， 因 此 文中 推荐 前 估计 公式 是 可 用 药 . 不 过 正 
如 第 3 章 中 所 指出 的 那样, 分 位 数 的 估计 也 可 用 别 的 方法 , 此 时 就 不 必 对 
总 体 分 布 作 特 殊 的 假定 , 且 有 比较 好 的 性 质 、 
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